第4章:上下文信息架构设计
4.1 上下文信息的分类体系
信息维度分类
时间维度
- 历史信息:过往项目经验、历史决策记录
- 当前信息:现有系统状态、当前需求背景
- 未来信息:发展规划、扩展需求
空间维度
- 局部信息:当前模块、具体功能
- 系统信息:整体架构、系统边界
- 生态信息:外部依赖、行业标准
抽象维度
- 概念层:业务概念、领域模型
- 逻辑层:业务规则、处理流程
- 物理层:技术实现、部署环境
信息类型分类
上下文信息分类体系
上下文信息按照不同维度可以分为四个主要类别,每个类别下包含具体的信息子类型:
| 信息类别 | 子类型 | 说明 | 重要性 |
|---|---|---|---|
| 业务信息 | 业务规则 | 核心业务逻辑和约束条件 | 🔴 高 |
| 用户场景 | 用户使用情况和需求描述 | 🟡 中 | |
| 数据模型 | 业务数据结构和关系 | 🟡 中 | |
| 技术信息 | 架构设计 | 系统整体架构和设计原则 | 🔴 高 |
| 技术栈 | 使用的技术框架和工具 | 🟡 中 | |
| 接口规范 | API设计和数据交换格式 | 🟡 中 | |
| 过程信息 | 开发流程 | 开发方法论和工作流程 | 🟢 低 |
| 质量标准 | 代码质量和测试要求 | 🟡 中 | |
| 部署流程 | 发布和运维相关流程 | 🟢 低 | |
| 环境信息 | 团队结构 | 团队组织和角色分工 | 🟢 低 |
| 工具链 | 开发和运维工具配置 | 🟢 低 | |
| 约束条件 | 资源限制和外部约束 | 🟡 中 |
信息分类的核心原则:
- 层次化组织:从抽象到具体,从整体到局部
- 相互关联:不同类别的信息之间存在依赖和影响关系
- 动态调整:根据项目阶段和任务需求调整信息优先级
- 完整覆盖:确保所有必要的上下文信息都有对应的分类
使用建议:
- 在项目初期,重点关注业务信息和技术信息
- 在开发阶段,过程信息的重要性会显著提升
- 环境信息通常作为背景信息,但在特定情况下可能成为关键因素
4.2 信息优先级与权重设计
优先级评估模型
RICE评估框架
- 影响范围(Reach):信息影响的功能模块数量
- 影响程度(Impact):对最终结果的影响强度
- 置信度(Confidence):信息准确性和可靠性
- 获取成本(Effort):获取和维护信息的成本
优先级得分 = (影响范围 × 影响程度 × 置信度) / 获取成本动态权重调整算法
上下文权重计算系统
该系统负责动态计算不同类型上下文信息的权重,确保最相关的信息获得更高的优先级。
基础权重配置:
| 上下文类型 | 基础权重 | 说明 |
|---|---|---|
| 业务上下文 | 0.8 | 业务需求和规则,优先级最高 |
| 技术上下文 | 0.7 | 技术约束和实现细节 |
| 流程上下文 | 0.6 | 工作流程和操作步骤 |
| 环境上下文 | 0.5 | 运行环境和配置信息 |
动态权重计算流程:
- 获取基础权重:根据上下文类型确定初始权重值
- 任务相关性调整:基于当前任务的相关程度进行权重调整(调整幅度:±0.3)
- 时间衰减处理:考虑信息的时效性,对过时信息降低权重(衰减幅度:-0.2)
- 权重范围限制:确保最终权重在0.1-1.0范围内,避免极端值
计算公式:
最终权重 = 基础权重 + (任务相关性 × 0.3) - (时间衰减因子 × 0.2)
权重范围:max(0.1, min(1.0, 最终权重))4.3 信息密度控制策略
信息密度评估
密度计算公式
信息密度 = 有效信息量 / 总信息量
有效信息量 = Σ(信息项权重 × 相关性得分)
总信息量 = 所有信息项的总字符数最优密度区间
- 低密度区间(<0.3):信息冗余过多,需要精简
- 适中密度区间(0.3-0.7):信息密度合理,效果最佳
- 高密度区间(>0.7):信息过于紧凑,可能遗漏细节
信息压缩技术
层次化压缩
# 原始信息(低密度)
用户管理系统需要实现用户注册功能。用户注册功能包括用户输入个人信息,系统验证信息的有效性,然后将用户信息存储到数据库中。个人信息包括姓名、邮箱、密码等。验证包括邮箱格式验证、密码强度验证等。存储需要考虑数据安全性。
# 压缩后信息(适中密度)
用户注册功能:
- 输入:姓名、邮箱、密码
- 验证:邮箱格式、密码强度(8位+大小写+数字)
- 存储:bcrypt加密,MySQL用户表
- 异常:重复邮箱提示,验证失败返回具体错误关键词提取关键词提取系统
该系统从文本中自动提取最重要的关键词,用于信息索引和检索优化。
提取流程:
| 步骤 | 操作 | 说明 |
|---|---|---|
| 1. 文本预处理 | 清理标点符号,转换为小写 | 统一文本格式,便于后续处理 |
| 2. 文本分词 | 将文本分割为单词列表 | 基于空格进行简单分词 |
| 3. 停用词过滤 | 移除常见的无意义词汇 | 包括:的、是、在、有、和、与、或、但、如果、那么等 |
| 4. 词频统计 | 计算每个词的出现频率 | 使用字典结构存储词频信息 |
| 5. 频率排序 | 按词频降序排列 | 高频词汇优先作为关键词 |
| 6. 结果截取 | 返回前N个关键词 | 默认最多返回10个关键词 |
停用词列表:
{'的', '是', '在', '有', '和', '与', '或', '但', '如果', '那么'}输出格式:
- 返回按重要性排序的关键词列表
- 默认最多包含10个关键词
- 可通过max_keywords参数调整数量
4.4 重点突出策略
信息标记系统
重要性标记
🔴 **关键信息**:必须严格遵守的约束条件
🟡 **重要信息**:影响实现方案的重要因素
🟢 **参考信息**:可选的补充说明
⚪ **背景信息**:帮助理解的上下文紧急性标记
⚡ **立即处理**:阻塞性问题,需要立即解决
🔥 **优先处理**:高优先级,本次迭代必须完成
📋 **计划处理**:中等优先级,可安排到后续迭代
💡 **建议处理**:低优先级,有时间时考虑视觉层次设计
信息层次结构
# 一级标题:核心主题
## 二级标题:主要分类
### 三级标题:具体内容
**粗体**:关键概念和重要信息
*斜体*:强调和补充说明
`代码`:技术术语和具体实现
> 引用:重要的规则和约束
- 列表:并列的信息项
- 子列表:详细说明
| 表格 | 结构化数据展示 |
|------|----------------|
| 对比 | 清晰的对比关系 |4.5 动态上下文管理机制
上下文生命周期
上下文生命周期管理
上下文信息在系统中经历完整的生命周期,每个阶段都有特定的管理策略和转换条件:
| 生命周期阶段 | 状态描述 | 主要活动 | 转换条件 | 持续时间 |
|---|---|---|---|---|
| 创建 | 初始化上下文信息 | 信息收集、格式化、验证 | 信息完整且有效 | 即时 |
| 激活 | 准备投入使用 | 权重计算、相关性评估、索引建立 | 通过质量检查 | 1-5分钟 |
| 使用中 | 正在被系统使用 | 实时调整、反馈收集、性能监控 | 持续有效使用 | 数小时到数天 |
| 更新 | 基于反馈优化 | 内容修正、权重调整、关系更新 | 收到有效反馈 | 10-30分钟 |
| 休眠 | 暂时不活跃 | 降低权重、保持可用性 | 长期未使用但仍有效 | 数天到数周 |
| 归档 | 长期存储 | 压缩存储、降低访问频率 | 历史价值但不常用 | 数月到数年 |
| 失效 | 信息过时无效 | 标记删除、清理关联 | 信息过时或错误 | 即时 |
状态转换规则:
- 正向流程:创建 → 激活 → 使用中 → 更新 → 使用中(循环)
- 休眠机制:使用中 → 休眠(长期未使用)→ 激活(重新需要)
- 归档流程:休眠 → 归档(确认不再频繁使用)
- 失效处理:任何阶段 → 失效(发现错误或过时)
生命周期管理策略:
- 创建阶段:严格的信息验证和质量控制
- 激活阶段:快速的相关性计算和权重分配
- 使用阶段:实时的性能监控和反馈收集
- 更新阶段:基于数据驱动的优化决策
- 休眠阶段:资源节约的存储和索引策略
- 归档阶段:长期保存的压缩和备份机制
- 失效阶段:安全的删除和关联清理
关键性能指标:
- 平均生命周期长度:衡量信息的持续价值
- 状态转换频率:反映信息的动态性
- 失效率:评估信息质量控制效果
- 重激活率:评估休眠策略的合理性
生命周期管理策略
- 创建阶段:信息收集和初始化
- 激活阶段:权重计算和相关性评估
- 使用阶段:实时调整和反馈收集
- 更新阶段:基于反馈优化信息
- 休眠阶段:降低权重但保持可用
- 归档阶段:长期存储,降低访问频率
- 失效阶段:信息过时,标记删除
自适应调整算法
自适应上下文管理系统
该系统能够根据任务特征和性能反馈动态调整上下文信息的选择和权重,实现智能化的上下文管理。
系统组件:
| 组件名称 | 功能描述 | 数据结构 |
|---|---|---|
| 上下文池 | 存储所有可用的上下文信息 | 字典: |
| 使用历史 | 记录上下文的使用情况 | 字典: |
| 反馈评分 | 存储用户对上下文效果的评价 | 字典: |
动态调整流程:
- 任务特征提取:分析当前任务的关键特征和需求
- 相关性计算:评估每个上下文与当前任务的相关程度
- 反馈权重更新:基于历史反馈调整上下文权重
- 最优组合选择:选择最适合当前任务的上下文组合(最多10个)
反馈学习机制:
- 学习率:α = 0.3(控制新反馈对权重的影响程度)
- 更新公式:新评分 = α × 当前反馈 + (1-α) × 历史评分
- 初始化:新上下文的初始评分等于首次反馈分数
优化策略:
- 高相关性上下文优先选择
- 基于反馈持续优化权重
- 动态平衡探索与利用
## 4.6 上下文信息的存储与检索
### 存储架构设计
**分层存储策略**┌─────────────────────────────────┐ │ 热数据层 (Redis) │ ← 频繁访问的上下文 ├─────────────────────────────────┤ │ 温数据层 (MySQL) │ ← 结构化的上下文数据 ├─────────────────────────────────┤ │ 冷数据层 (对象存储) │ ← 历史归档的上下文 └─────────────────────────────────┘
**数据模型设计**
```sql
-- 上下文信息表
CREATE TABLE context_info (
id BIGINT PRIMARY KEY AUTO_INCREMENT,
context_id VARCHAR(64) UNIQUE NOT NULL,
title VARCHAR(255) NOT NULL,
content TEXT NOT NULL,
context_type ENUM('business', 'technical', 'process', 'environment'),
priority_level TINYINT DEFAULT 5,
weight_score DECIMAL(3,2) DEFAULT 0.50,
created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
updated_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
expires_at TIMESTAMP NULL,
status ENUM('active', 'inactive', 'archived') DEFAULT 'active',
INDEX idx_type_priority (context_type, priority_level),
INDEX idx_weight_status (weight_score, status),
INDEX idx_created_at (created_at)
);
-- 上下文关系表
CREATE TABLE context_relations (
id BIGINT PRIMARY KEY AUTO_INCREMENT,
source_context_id VARCHAR(64) NOT NULL,
target_context_id VARCHAR(64) NOT NULL,
relation_type ENUM('depends_on', 'conflicts_with', 'related_to', 'extends'),
strength DECIMAL(3,2) DEFAULT 0.50,
created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
UNIQUE KEY uk_relation (source_context_id, target_context_id, relation_type),
FOREIGN KEY (source_context_id) REFERENCES context_info(context_id),
FOREIGN KEY (target_context_id) REFERENCES context_info(context_id)
);
-- 使用历史表
CREATE TABLE context_usage_history (
id BIGINT PRIMARY KEY AUTO_INCREMENT,
context_id VARCHAR(64) NOT NULL,
task_id VARCHAR(64) NOT NULL,
usage_timestamp TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
effectiveness_score DECIMAL(3,2),
feedback_notes TEXT,
INDEX idx_context_task (context_id, task_id),
INDEX idx_timestamp (usage_timestamp),
FOREIGN KEY (context_id) REFERENCES context_info(context_id)
);智能检索算法
多维度检索系统
该系统整合多种检索方法,提供高精度、高召回率的上下文信息检索服务。
系统架构:
| 组件 | 技术选型 | 功能 |
|---|---|---|
| 向量数据库 | Pinecone、Weaviate | 语义相似度检索 |
| 关系数据库 | MySQL、PostgreSQL | 结构化数据查询 |
| 全文检索 | Elasticsearch、MySQL FULLTEXT | 关键词匹配 |
检索流程:
- 并行检索:同时执行三种检索方式,每种方式返回2倍于目标数量的结果
- 语义检索:基于向量相似度匹配语义相关的上下文
- 关键词检索:使用全文索引进行精确关键词匹配
- 结构化查询:基于元数据和标签进行结构化筛选
- 结果融合:按权重合并多种检索结果
- 重新排序:综合评分后返回最优结果
权重分配策略:
| 检索方式 | 权重 | 说明 |
|---|---|---|
| 语义检索 | 0.5 | 主要检索方式,权重最高 |
| 关键词检索 | 0.3 | 辅助精确匹配 |
| 结构化查询 | 0.2 | 基于元数据筛选 |
评分计算:
最终评分 = 基础评分 × 检索权重 × 位置衰减因子
位置衰减因子 = 1 - (排名位置 × 0.1)SQL查询模板:
SELECT context_id, title, content,
MATCH(title, content) AGAINST(? IN NATURAL LANGUAGE MODE) as score
FROM context_info
WHERE MATCH(title, content) AGAINST(? IN NATURAL LANGUAGE MODE)
AND status = 'active'
ORDER BY score DESC
LIMIT ?4.7 上下文质量评估与优化
质量评估指标
准确性指标
- 信息正确率:正确信息 / 总信息量
- 时效性得分:基于信息更新时间的衰减函数
- 完整性得分:必要信息的覆盖程度
有效性指标
- 使用频率:信息被引用的次数
- 成功率:使用该信息后任务成功的比例
- 反馈得分:用户对信息质量的评价
效率性指标
- 检索速度:平均检索响应时间
- 存储效率:存储空间利用率
- 维护成本:信息维护所需的人力成本
持续优化机制
上下文质量优化系统
该系统负责评估和优化上下文信息的质量,确保系统中的信息始终保持高质量状态。
质量评估维度:
| 评估维度 | 权重 | 评估指标 | 计算方法 |
|---|---|---|---|
| 准确性 | 40% | 信息正确率、时效性、完整性 | 基于验证结果和更新频率 |
| 有效性 | 40% | 使用频率、成功率、反馈评分 | 基于使用统计和用户反馈 |
| 效率性 | 20% | 检索速度、存储效率、维护成本 | 基于性能指标和资源消耗 |
综合质量评分公式:
质量得分 = 准确性得分 × 0.4 + 有效性得分 × 0.4 + 效率性得分 × 0.2质量评估报告结构:
- 总体得分:综合质量评分(0-1分)
- 分项得分:各维度的详细评分
- 优化建议:基于评估结果的改进建议
自动优化策略:
| 质量阈值 | 触发条件 | 优化动作 | 执行原因 |
|---|---|---|---|
| 总体得分 < 0.6 | 综合质量不达标 | 进入优化流程 | 整体质量需要改善 |
| 准确性 < 0.5 | 信息准确性低 | 更新内容 | 信息过时或错误 |
| 有效性 < 0.5 | 使用效果差 | 调整权重 | 降低优先级或重新分类 |
| 效率性 < 0.5 | 资源效率低 | 归档处理 | 成本高但价值低 |
优化动作类型:
- 内容更新:修正错误信息,补充缺失内容
- 权重调整:基于使用效果调整优先级
- 归档处理:将低效信息移至归档存储
- 删除清理:移除无效或重复的信息
持续改进机制:
- 定期质量评估(每日/每周)
- 实时监控关键指标
- 基于反馈动态调整评估标准
- 自动执行低风险优化动作
## 4.8 实践案例:电商系统上下文架构
### 业务场景
某电商平台需要开发商品推荐功能,涉及用户行为分析、商品特征提取、推荐算法实现等多个方面。
### 上下文信息架构设计
**信息分类**
```markdown
# 业务上下文
## 用户相关
- 用户画像:年龄、性别、消费偏好、购买历史
- 行为数据:浏览记录、搜索历史、购买路径
- 反馈数据:评价、收藏、分享行为
## 商品相关
- 商品属性:类别、品牌、价格、规格
- 商品关系:相似商品、互补商品、替代商品
- 销售数据:销量、库存、促销信息
# 技术上下文
## 算法约束
- 推荐算法:协同过滤、内容推荐、深度学习
- 性能要求:响应时间<100ms,准确率>85%
- 扩展性:支持千万级用户,百万级商品
## 系统集成
- 数据源:用户系统、商品系统、订单系统
- 接口规范:RESTful API,JSON格式
- 部署环境:Kubernetes集群,Redis缓存权重配置
{
"context_weights": {
"user_profile": 0.9,
"user_behavior": 0.8,
"product_attributes": 0.7,
"sales_data": 0.6,
"algorithm_constraints": 0.8,
"performance_requirements": 0.9,
"system_integration": 0.7
},
"dynamic_adjustment": {
"task_relevance_factor": 0.5,
"time_decay_factor": 0.3,
"usage_boost_factor": 0.2
}
}检索策略商品推荐上下文检索实现
该函数实现了电商系统中商品推荐功能的上下文信息检索逻辑,通过多维度信息融合为推荐算法提供精准的上下文支持。
函数功能描述:
- 函数名称:获取推荐上下文信息
- 输入参数:用户标识(用户ID)和商品类别(商品分类)
- 返回结果:经过筛选和排序的前10个最相关上下文信息
- 核心目标:为个性化商品推荐提供多维度上下文支持
检索策略实现流程:
| 检索阶段 | 操作内容 | 数据来源 | 结果数量 |
|---|---|---|---|
| 1. 基础检索 | 根据查询关键词检索通用上下文 | 全局上下文库 | 最多15个 |
| 2. 用户上下文 | 获取用户特定的行为和偏好信息 | 用户画像系统 | 动态数量 |
| 3. 类别上下文 | 获取商品类别相关的特征信息 | 商品知识库 | 动态数量 |
| 4. 信息融合 | 合并多源上下文并进行相关性排序 | 融合算法 | 综合结果 |
| 5. 规则过滤 | 应用业务规则筛选最终结果 | 业务规则引擎 | 前10个 |
查询构建策略:
- 查询模板:"用户推荐 {商品类别} 协同过滤"
- 关键词组合:用户推荐 + 具体商品类别 + 推荐算法类型
- 语义增强:通过模板化查询提高检索精度
多维度上下文融合:
| 上下文类型 | 信息内容 | 权重影响 | 应用场景 |
|---|---|---|---|
| 基础上下文 | 通用推荐知识、算法原理 | 标准权重 | 所有推荐场景 |
| 用户上下文 | 个人偏好、历史行为、画像特征 | 高权重 | 个性化推荐 |
| 类别上下文 | 商品特征、类别规律、销售数据 | 中等权重 | 类别相关推荐 |
业务规则过滤机制:
- 相关性过滤:移除与当前任务无关的上下文
- 质量过滤:排除低质量或过时的信息
- 数量控制:限制最终返回结果为10个最优上下文
- 多样性保证:确保不同类型上下文的均衡分布
实现优势:
- 多源融合:整合用户、商品、算法等多维度信息
- 个性化定制:基于用户ID提供定制化上下文
- 类别适配:根据商品类别调整检索策略
- 质量保证:通过业务规则确保上下文质量
- 性能优化:限制结果数量,提高处理效率
4.9 本章小结
上下文信息架构设计是Context Engineering的核心技术,通过本章介绍的方法,我们可以:
- 建立科学的信息分类体系:多维度、多层次的信息组织
- 实现动态权重管理:基于任务和反馈的自适应调整
- 控制信息密度:在完整性和简洁性之间找到平衡
- 突出重点信息:通过标记和视觉层次引导注意力
- 构建智能检索系统:多维度融合的高效检索
- 持续质量优化:基于数据驱动的质量改进
掌握这些技术后,开发者可以构建高效、准确的上下文信息系统,为AI工具提供最优质的输入,从而获得最佳的输出效果。在下一章中,我们将探讨RAG+Rules+MCP框架的具体实践方法。