smartmate/docs/backend/prd文档.md

# SmartFlow 主动优化功能 PRD（讨论版）

## 0. 文档信息
- 文档状态：讨论中（骨架版）
- 适用范围：主动优化（对话内 execute + 对话内任务类共创）
- 文档目的：先对齐产品方向，再指导后续实现
- 约束说明：本 PRD 只谈产品，不谈技术实现

---

## 1. 业务背景与问题定义（已讨论 v0.1）
### 1.1 当前用户问题
- 用户并不总会明确表达需求，存在两类典型入口：
  - 默认入口：用户未明确偏好，只希望“尽快排好任务类”。
- 偏好入口：用户给出较多约束与倾向（强度、时段、节奏、容错等）。
- 现状容易把优化做成“单点最佳实践”或“一次性建议”，缺少可持续迭代与偏好对齐。
- 因此，工具体系必须同时支持：
  - 在信息不足时，按科学界公认最佳实践给出稳健中位方案。
  - 在用户偏好明确时，优先按用户需求调参，不盲从默认最佳实践。

### 1.2 核心问题陈述
- 我们要解决的问题是：
  `如何让 AI 在“科学最佳实践”和“用户个性化需求”之间做可解释、可调节、可收敛的主动优化。`
- 该问题直接决定工具设计方向：
  - 读工具覆盖面必须足够广，能够支撑不同偏好下的判断。
  - 每个核心指标必须是“区间型”而不是“单点型”：
    - 默认站在中位（平衡值）。
    - 能向左/向右偏移，对应不同用户诉求。

### 1.3 本章已确定结论
- 首发主用户策略：
  - 若用户需求不提或较弱，系统默认采用中位最佳实践快速生成。
  - 若用户需求明确且较多，系统优先满足用户需求，科学原则作为安全边界。
- “满意方案”判定口径（本章层面）：
  - 本质不是固定模板，而是“在用户诉求方向上的可接受平衡点”。
  - 默认用户采用中位平衡；偏好用户采用定向偏移平衡。
- 自动优化容忍边界（当前已定项）：
  - 轮次上限暂定 60 轮。
  - 时长与是否开启深度思考的权衡暂不在本章冻结，后续章节决策。

### 1.4 对后续章节的约束
- 第 6 章（科学原则）必须给出“中位默认 + 双向偏移”的可解释规则。
- 第 8 章（工具蓝图）必须体现“覆盖广度 + 区间刻度”的产品能力。
- 第 11 章（指标验收）必须衡量“默认模式质量”与“偏好对齐质量”两条线。

---

## 2. 产品目标与非目标（已讨论 v0.1）
### 2.1 产品目标定义与优先级（已定）
- 目标 A（最高优先级）：自主迭代收敛
  - 定义：AI 以“观测-调整-复盘”循环持续优化，直到达到可接受方案再收口。
  - 用户价值：减少用户逐步指挥成本，体现“主动出击”。
- 目标 B（第二优先级）：可解释且有改进证据
  - 定义：每轮调整都要给出“为何调整、调整内容、前后差异”。
  - 用户价值：可控、可信，避免“黑箱瞎调”。
- 目标 C（第三优先级）：对话内任务类共创草案
  - 定义：用户在聊天中触发后，AI 通过反问与检索产出完整任务类草案。
  - 用户价值：降低冷启动门槛，减少配置负担，避免新增第二交互区。
- 优先级结论：`A > B > C`。

### 2.2 阶段目标策略（已定）
- 首发必须保证：A 与 B 构成闭环能力。
- 首发可落可迭代：C 以“可用版”上线，后续逐步提高草案准确率与覆盖深度。
- 取舍原则：若资源冲突，优先保障 A；若 A 满足基本可用，再保障 B；C 按剩余资源推进。

### 2.3 非目标（已定）
- 不追求一次优化即全局最优，目标是“可收敛的高质量可接受方案”。
- 不追求首发覆盖全部学习风格与全部人群偏好。
- 不追求在高风险场景下完全替代用户决策。
- 不以“工具数量”作为目标，避免能力堆叠但无法形成闭环价值。

### 2.4 本章已确定结论
- 我们的核心差异化能力是 A（主动迭代优化），不是一次性建议或单轮算法执行。
- B 是 A 的信任保障，必须同步建设，不能后补。
- C 是重要入口能力，但在首发阶段不应挤占 A/B 的闭环建设资源。

### 2.5 对后续章节的约束
- 第 5 章（主动优化流程）必须完整体现 A 的循环收敛机制。
- 第 9 章（交互要求）必须体现 B 的解释与改进证据结构。
- 第 12 章（分期路线图）必须以 `A > B > C` 排序规划交付。

---

## 3. 用户与场景（已讨论 v1.0）
### 3.1 目标用户分层（已形成草案）
| 用户分层 | 典型特征 | 当前痛点 | 价值诉求 | 首发优先级 |
|---|---|---|---|---|
| 极速排程型 | 不想多聊，希望尽快出方案 | 参数配置成本高、上手慢 | 一键可用、少改动 | P1 |
| 偏好驱动型 | 明确表达强度/时段/节奏偏好 | 通用最佳实践不一定贴合个人需求 | 结果沿偏好方向明显偏移、可控可解释 | P0（首发主优先） |
| 反复调优型 | 接受多轮优化，关注持续变好 | 容易遇到来回调整、无效微调 | 稳定收敛、每轮有改进证据 | P1 |

### 3.2 首发核心场景清单（已形成草案）
| 场景 | 触发方式 | 用户期望 | 成功标准 |
|---|---|---|---|
| 场景 S1：对话内任务类共创草案 | 用户在聊天中提出“帮我设计任务类” | 快速得到完整且可确认的任务类草案 | 用户可直接采纳或仅小幅修改后采纳 |
| 场景 S2：对话内“帮我优化一下” | 用户在对话中发起优化请求 | AI 主动多轮调整并收口 | 至少完成 1-2 轮有效改进且最终可交付 |
| 场景 S3：对话内“按我的偏好重排” | 用户明确给出偏好/约束 | AI 优先满足偏好，不盲从默认最佳实践 | 结果明显朝偏好方向偏移且不破坏硬约束 |

### 3.3 场景优先策略（已形成草案）
- 首发优先主线：偏好驱动型（P0）。
- 原因：该人群最能体现本功能差异化价值，即“可调节的主动优化”，而非一次性默认排程。
- 策略要求：所有首发核心场景都必须支持“默认中位 + 偏好偏移”双模式。

### 3.4 暂不支持场景清单（草案）
| 暂不支持场景 | 暂缓原因 | 后续进入条件 |
|---|---|---|
| 跨超长周期（如整学期/跨学期）全局最优规划 | 目标跨度过大，首发优先保证局部收敛质量 | 收敛稳定性和性能目标达标后再纳入 |
| 多主体联合排程（多人协同/冲突协商） | 交互复杂度高，超出首发边界 | 单人场景成熟后评估 |
| 高风险不可逆决策自动执行 | 需要更强确认链路与责任边界 | 风险治理机制完善后评估 |

### 3.5 本章已确定的判定阈值口径
- S1（任务类共创草案“小幅修改”阈值）：
  - 定义：关键字段修改率 <= 30% 视为“小幅修改”。
  - 用途：衡量草案可用性与采纳质量（用于产品验收，不作为用户前台提示）。
- S2（主动优化“有效改进”最小标准）：
  - 定义：至少一个核心问题域的严重度下降，视为“有效改进”。
  - 严重度层级：`critical > warning > info`。
  - 用途：判断单轮优化是否有实质收益，避免无效循环。
- S3（偏好冲突裁决规则）：
  - 定义：用户偏好优先，科学原则兜底。
  - 用途：在“通用最佳实践 vs 用户个性化需求”冲突时，给出统一裁决路径。

### 3.6 新增场景候选：对话内任务类共创（WebSearch 增强）
#### 3.6.1 场景定义（已讨论结论）
- 场景目标：由 AI 在对话中产出“完整任务类草案”，而非仅补全单个参数。
- 触发方式：仅支持聊天触发，不新增聊天外按钮入口。
- 原因：该能力需要多轮反问与澄清，若放在聊天外容易形成“第二对话区”，增加认知负担。

#### 3.6.2 信息来源优先级（已讨论结论）
- WebSearch 负责：补充通用知识（如课程信息、学习路径共识、考试结构常识）。
- 用户输入负责：表达个人偏好与约束（强度、时段、节奏、目标侧重）。
- 冲突处理：用户偏好优先，通用知识仅作参考与兜底。

#### 3.6.3 字段确认策略（已讨论结论）
- 关键字段：必须用户确认后落库。
- 普通字段：允许静默落库，并在结果摘要中可追溯展示。

#### 3.6.4 成功标准（草案）
- 草案采纳率（用户直接采纳完整草案的比例）。
- 草案修改率（用户修改后采纳的比例）。
- 后续优化收敛效率（基于该草案进入主动优化后的平均有效轮次变化）。

---

## 4. 核心体验原则（已讨论 v1.0）
### 4.1 体验总纲（草案）
- 原则 1：先看全局，再做局部。
  - 先识别主要矛盾，再执行局部调整，避免“盲调”。
- 原则 2：单轮单主问题域。
  - 每轮只聚焦一个主问题域，降低震荡与来回改动。
- 原则 3：每轮必须复盘并判定有效性。
  - 任何调整都要有“是否变好”的结论，不允许无结论进入下一轮。
- 原则 4：达标即收口。
  - 达到可接受阈值后立即停止，避免过度优化。
- 原则 5：偏好优先、科学兜底。
  - 用户偏好是目标方向，科学原则提供安全边界。
- 原则 6：硬约束优先于体验优化。
  - 先保证不违约束，再追求负载/节奏/切换等体验改进。

### 4.2 单轮优化行为规范（草案）
- 规范 A：本轮开始前必须声明“主问题域 + 目标变化”。
- 规范 B：单轮仅允许一个主问题域，允许附带次问题观察但不展开动作。
- 规范 C：同一主问题域若尚未出现有效改进，不应频繁切换到其他问题域。
- 规范 D：若用户明确指定优化方向，优先采用用户方向作为本轮主问题域。

### 4.3 单轮复盘输出规范（草案）
- 每轮都应给出三段式结果：
  - 本轮目标：本轮要改善什么。
  - 本轮改动：改了哪些关键位置。
  - 本轮结果：哪些指标或问题严重度发生了变化。
- 单轮判定结果仅允许两类：
  - `有效改进`：至少一个核心问题域严重度下降。
  - `无效改进`：无严重度下降，需换策略或收口。

### 4.4 收口与停机原则（已定）
- 正常收口条件：
  - 达到可接受方案阈值；
  - 或主要问题已降至可接受等级。
- 防循环停机条件：
  - 连续多轮无有效改进；
  - 或达到轮次上限（当前上限 60）。
- 强制人工确认规则（已定）：
  - 只要涉及“移动类改动”，默认都需用户确认后执行。
  - 仅当用户显式开启“始终同意”时，允许自动通过确认。
  - 即使自动通过，也需在结果中保留可追溯记录。

### 4.5 本章已确定结论
- Q4-1 结论：支持用户强制覆盖单轮主问题域。
  - 说明：前端已支持用户自由拖动，该能力与产品原则一致。
- Q4-2 结论：采用“移动必确认，始终同意可自动通过”的统一规则。
  - 说明：确认链路以用户控制权优先，兼顾效率模式。

---

## 5. 主动优化产品流程（已讨论 v1.0）
### 5.0 模式切换策略（补充，已定）
- 首次主动排课（粗排 + 主动微调）默认启用全流程模式。
- 后续局部调整请求默认启用局部执行模式（优先旧工具链）。
- 仅在以下情况升级为全流程模式：
  - 用户明确授权“重新全局优化”；
  - 用户诉求明确命中指标域（如切换过多、太满、容错不足等）。

### 5.1 流程总览（已定）
1. 入场判定：确定本次优化模式（默认中位 / 偏好驱动）、目标窗口、可改动范围。
2. 首轮体检：强制先体检，再进入改动（避免盲调）。
3. 迭代优化：按“单轮主问题域”执行改动与复盘。
4. 收口判定：达标即收口；未达标则继续循环。
5. 异常处理：冲突、失败、用户改目标时按规则回退或重开。
6. 结果交付：输出改动摘要、改进证据、剩余风险与下一步建议。

### 5.2 轮次定义（已定）
- “1 轮优化”定义为一次完整闭环：
  1. 选定主问题域；
  2. 生成本轮改动方案；
  3. 通过确认门禁；
  4. 执行改动；
  5. 复盘并判定有效/无效。
- 说明：
  - 仅观察不改动，不计入优化轮。
  - “连续无效轮次”仅统计“已执行改动但未出现有效改进”的轮。

### 5.3 详细流程规则（已定）
#### 5.3.1 入场判定
- 输入：用户目标、偏好、限制、当前日程状态。
- 输出：本次优化上下文（模式、范围、约束、初始问题池）。
- 规则：若用户目标不明确，默认按中位最佳实践入场。
- 规则补充：
  - 局部执行模式可跳过全流程体检，直接做最小必要校验后执行。
  - 全流程模式必须先体检再改动。

#### 5.3.2 首轮体检（强制）
- 必须先完成体检再改动。
- 体检结果至少包含：问题清单、严重度排序、建议主问题域。
- 禁止跳过体检直接执行改动。

#### 5.3.3 单轮优化执行
- 每轮必须先声明：本轮主问题域与目标变化。
- 本轮仅允许一个主问题域，避免并发多目标拉扯。
- 涉及移动类改动：
  - 默认需用户确认；
  - 用户开启“始终同意”后可自动通过；
  - 自动通过仍需可追溯记录。

#### 5.3.4 单轮复盘判定
- 有效改进标准：至少一个核心问题域严重度下降。
- 无效改进标准：执行改动后无严重度下降。
- 无效轮次处置：允许换策略继续，但需计入连续无效轮次计数。

### 5.4 收口规则（已定）
- 正常收口阈值：
  - `critical = 0`；
  - `warning <= 1`。
- 防循环强制收口：
  - 连续无效轮次 >= 3；
  - 或达到总轮次上限（当前 60 轮）。
- 收口后必须输出：已解决问题、未解决问题、建议后续动作。

### 5.5 用户中途改目标处理（已定）
- 当用户在优化过程中明确变更目标/偏好时：
  - 立即重开“入场判定”；
  - 清空当前主问题域上下文；
  - 基于新目标重新体检并进入下一轮。
- 目的：避免沿旧目标继续优化导致结果跑偏。

### 5.6 本章已确定结论
- 首轮体检强制执行。
- 可接受阈值采用 `critical=0 且 warning<=1`。
- 连续无效 3 轮即强制收口。
- 用户中途改目标时，必须重开入场判定。
- 首次主动排课默认全流程；后续局部调整默认旧工具链。

---

## 6. 科学安排原则（已讨论 v1.0）
### 6.1 原则优先级（已定）
按“上位约束可否决下位偏好”的顺序执行：
1. 硬约束合法性（不可冲突、不可越界、不可违规改动）
2. 截止与时间压力（先保证不发生明显延期风险）
3. 用户偏好方向（在上位约束允许范围内优先满足）
4. 负载均衡（避免极端堆积与突增）
5. 认知切换（控制高频切换与过长连续块）
6. 容错能力（可用空窗规模，平衡稳定性与利用率）

### 6.2 冲突裁决规则（已定）
| 冲突场景 | 裁决规则 | 用户可覆盖性 |
|---|---|---|
| 用户偏好 vs 硬约束合法性 | 硬约束优先，拒绝违规方案并给替代建议 | 不可覆盖 |
| 用户偏好 vs 截止/时间压力红线 | 截止压力优先，默认前移高风险任务 | 可显式确认后覆盖部分策略 |
| 用户偏好 vs 下位优化项（负载/切换/容错） | 用户偏好优先，科学原则兜底 | 可覆盖 |
| 无明确用户偏好 | 采用中位最佳实践 | 不适用 |

### 6.3 原则刻度化口径（中位默认 + 双向偏移）
| 原则维度 | 中位默认 | 左偏 | 右偏 |
|---|---|---|---|
| 负载强度 | 平衡推进 | 低强度（更松） | 冲刺强度（更满） |
| 截止推进 | 均衡前移 | 早缓冲（更早完成） | 临近冲刺（更晚推进） |
| 认知切换 | 适度切换 | 低切换（同类聚合） | 高切换（灵活穿插） |
| 容错能力 | 平衡容错 | 高容错（多留大空窗） | 低容错（任务排得更满） |

### 6.4 软硬约束分层（已定）
- 硬约束：
  - 合法性约束（冲突、越界、禁止改动范围）
  - 截止/时间压力红线
- 软约束：
  - 负载均衡
  - 认知切换
  - 容错能力
- 执行原则：
  - 先满足硬约束，再在软约束内做偏好优化。

### 6.5 本章已确定结论
- 科学原则优先级已固定为“硬约束与截止优先，偏好次之，其余体验项随后优化”。
- 冲突裁决已固定为“分层裁决”：不可覆盖项直接否决，可覆盖项通过显式确认处理。
- “容错”作为用户可理解维度，已替代“空窗/缓冲”作为统一外显术语。

---

## 7. 用户需求与偏好模型（已讨论 v1.0）
### 7.1 边界定义（已定）
- 本章只定义“偏好消费与确认规则”，不定义“偏好采集机制”。
- 偏好采集由 memory 系统负责：
  - 持续采集；
  - 去重注入；
  - 产品层直接消费。

### 7.2 偏好消费优先级（已定）
1. 用户显式输入（最高优先级）
2. memory 注入偏好（次优先）
3. WebSearch 通用知识（仅补全，不可覆盖用户偏好）
4. 无信息时采用中位默认值

### 7.3 必要点判定与 ask_user 规则（已定）
- 必要点定义：缺失会导致方案不可执行或高风险误判的关键信息。
- 必要点缺失时：必须 ask_user，不允许静默推断。
- 当前必要点清单：
  - 时间窗（至少明确 end，start 可按策略补齐）；
  - 强度方向（均匀/冲刺）；
  - 容错偏好（高容错/平衡/低容错）；
  - 禁排时段（若用户表达了禁忌但未结构化）。

### 7.4 字段分级（已定）
#### 7.4.1 关键字段（必须确认）
- 时间窗（start/end，截止时间统一归入 end，不单列重复字段）
- 强度策略（均匀/冲刺）
- 总预算（total_slots）
- 容错偏好（高容错/平衡/低容错）
- 禁排时段（excluded_slots）
- 任务项清单完整性（是否齐全）
- 任务项优先级/依赖关系（如用户提供）

#### 7.4.2 普通字段（可静默落）
- 推荐时段偏好权重（上午/下午/晚间）
- 同类任务聚合偏好（聚合/平衡/穿插）
- 阶段里程碑拆分建议
- 标准化知识标签与学习路径备注（命中统一标准时结构化落地；未命中仅文本备注）

### 7.5 口径修正（已定）
- 不在偏好层管理“单次学习块长度”：
  - 该项属于任务类/任务项结构属性，不作为本章普通偏好字段。
- 统一命名“时间窗”：
  - “截止时间”视为时间窗 end 的口语表达，不单列独立字段。

### 7.6 本章已确定结论
- 偏好由 memory 采集，产品层只做消费与确认。
- 必要点缺失必须 ask_user，避免静默误判。
- 字段分级与统一命名口径已固定，可直接指导后续工具设计与交互文案。

---

## 8. 工具能力产品蓝图（已讨论 v1.0）
### 8.1 工具分层（产品视角）
- 事实读取层：告诉 AI“现在是什么”
- 分析体检层：告诉 AI“问题在哪”
- 评估复盘层：告诉 AI“这轮是否变好”
- 执行动作层：让 AI 进行可控调整（以旧工具链为主）

### 8.2 混合工具策略（新增）
- 策略 1：旧工具保留为主执行层，不做全线替换。
- 策略 2：新分析工具作为导航层，主要用于首次主动排课与指标域重优化。
- 策略 3：局部请求默认旧工具直达执行，避免过度主动出击。
- 策略 4：仅在用户授权或命中指标域诉求时，升级为分析链路。

### 8.3 对话内能力（草案）
| 能力 | 适用模式 | 用户价值 | AI 产出 | 风险控制 |
|---|---|---|---|---|
| analyze_health（总览体检） | 首次编排/明确触发全流程时默认首入口（可跳过） | 快速定位主要问题 | metrics/issues/next_actions | 防盲钻、防误判 |
| analyze_load | 全流程模式/指标域触发 | 识别过载与波动 | 负载证据 + 动作建议 | 防局部最优 |
| analyze_subjects | 全流程模式/指标域触发 | 识别科目节奏与预算压力 | 分布证据 + 动作建议 | 防断档 |
| analyze_context | 全流程模式/指标域触发 | 识别切换过高与碎片化 | 切换证据 + 动作建议 | 防认知疲劳 |
| analyze_tolerance | 全流程模式/指标域触发 | 识别容错不足风险 | 容错证据 + 动作建议 | 防计划脆弱 |
| build_task_class_draft（WebSearch增强） | 共创模式 | 从 0 到 1 生成可用任务类草案 | 完整任务类草案 + 关键字段确认请求 | 防知识幻觉、防越权落库 |

### 8.4 分析工具输出结构规范（草案）
- 分析工具统一返回三段：
  - `metrics`：测量值；
  - `issues`：问题及严重度（critical/warning/info）；
  - `next_actions`：下一步建议（只建议，不自动执行）。
- 细节级别：
  - 默认 `summary`；
  - 用户追问或需要取证时使用 `full`。

### 8.5 WebSearch 共创能力边界（新增）
- 本能力定位：对话内共创，不替代主动优化主线。
- 输出形态：完整任务类草案，不是单字段建议。
- 决策边界：用户偏好优先于通用知识。
- 安全边界：关键字段需确认，普通字段可静默落并可追溯。

### 8.6 本章已确定结论
- `analyze_health` 仅在“首次编排”或“用户明确触发全流程”时作为默认首入口（可跳过）。
- 分析工具默认明细级别统一为 `summary`，用户追问或需取证时切换 `full`。

---

## 9. 关键体验与交互要求（已讨论 v1.0）
### 9.1 本章定位（已对齐）
- 本章只定义“用户看到什么、怎么被解释、何时需要确认”。
- 不定义算法细节、不定义工具内部实现。
- 目标是让主动优化“有方向、可理解、不过度”。

### 9.2 双模式对话体验（已对齐）
- 首次编排/明确触发全流程时：进入“体检 + 迭代优化”模式，先给全局判断，再给单轮改进。
- 后续局部请求时：默认走旧工具的局部执行链，不擅自升级为全流程。
- 仅在两类条件下可升级全流程：用户明确授权；用户诉求明确命中指标域（如“切换太多”“太满了”）。

### 9.3 单轮解释三段式（已定）
- 观察段：本轮先说“我看到了什么问题”，并给最小证据（指标或现象）。
- 动作段：再说“我准备怎么改、为什么这么改”，同时点明遵循了哪条科学原则与用户偏好。
- 结果段：最后说“改完发生了什么变化”，并给下一步建议（继续微调或收口）。
- 三段式的意义：让用户始终知道“问题-动作-结果”的闭环，避免 AI 黑箱式挪动。

### 9.4 解释字段最小集合（已定）
- 字段1（必显）：本轮主问题域（负载/切换/截止/容错/科目分布等）。
- 字段2（必显）：本轮改动摘要（改了哪些任务、从哪到哪、影响了哪几天）。
- 字段3（必显）：改动理由（科学原则 + 用户偏好 + 冲突裁决依据）。
- 字段4（建议显）：前后对比（至少 1 个核心指标变化）。
- 字段5（建议显）：副作用提示（例如“容错下降”“切换略增”）。
- 字段6（建议显）：下一步建议（继续某方向微调，或建议收口）。
- 默认规则：最少展示前 3 字段；全流程场景建议展示 1-6 字段。

### 9.5 用户控制与确认边界（已对齐）
- 涉及“移动类改动”默认都要确认；若用户已开启“始终同意”，可自动通过但需可追溯。
- 用户可自由手动拖动，系统应尊重手动结果，不反向强改。
- 用户可随时改目标；改目标后按既定规则重开入场判定。
- AI 可主动给建议，但不能越权执行超出用户授权范围的改动。

### 9.6 对话内任务类共创体验（已对齐）
- 仅聊天触发，不做聊天外按钮触发。
- 输出形态为“完整任务类草案”，而非零散参数建议。
- 关键字段必须确认；普通字段可静默落并保留可追溯记录。
- 用户偏好与 Web 通用知识冲突时，用户偏好优先。

### 9.7 本章已确定结论
- 默认解释风格采用“专业结论 + 通俗补充”双层表达。
- 最小必显字段固定为 3 项：主问题域、改动摘要、改动理由。
- 局部模式下不强制固定边界提示，是否提示由上下文按需决定。

---

## 10. 风险、边界与治理（已讨论 v1.0）
### 10.1 风险分层（产品视角）
- R1 收敛风险：LLM 长时间小步试探但无实质改进，造成轮次浪费。
- R2 体验风险：指标看起来改善，但用户主观体感变差（例如更累、更碎）。
- R3 越权风险：AI 在未充分授权下做了超出预期范围的改动。
- R4 可信风险：解释与真实改动不一致，导致用户不信任系统。
- R5 数据风险：关键信息缺失/冲突，导致判断前提不成立却仍继续优化。

### 10.2 产品边界（已对齐）
- 边界1：全流程优化默认仅用于首次编排或用户明确触发，后续局部请求默认局部执行。
- 边界2：涉及移动类改动默认确认；用户开启“始终同意”后可自动通过，但需保留追溯。
- 边界3：用户手动拖动结果优先，AI 不得反向强改。
- 边界4：用户可随时改目标；改目标后立即重开入场判定。
- 边界5：用户偏好与通用知识冲突时，用户偏好优先。

### 10.3 治理机制（过程治理）
- 入场治理：先判定是“全流程模式”还是“局部模式”；必要信息缺失必须 ask_user，不允许静默猜测。
- 轮中治理：坚持单轮单主问题域；每轮都输出“观察-动作-结果”，并判断是否有效改进。
- 收口治理：命中 `critical=0 且 warning<=1` 立即收口；连续无效 3 轮或达到轮次上限强制收口。
- 出口治理：收口时必须显式说明“当前残留问题 + 可选后续动作”，避免用户误以为已全局最优。

### 10.4 强制确认清单（已定）
- A类（必须确认）：任何会导致任务/课程位置变化的移动类改动（已拍板规则）。
- B类（必须确认）：会改变用户明确声明偏好的改动（如偏好时段、偏好节奏）。
- C类（必须确认）：一次影响多个日期的大范围联动调整（避免“无感大改”）。
- 说明：A/B/C 三类均为硬规则；若用户开启“始终同意”，可自动通过但须完整追溯。

### 10.5 “禁止 AI 改动清单”能力（已定）
- 能力定义：用户可声明一组“不可被 AI 主动改动”的对象或范围（例如某类固定课程/某些日期）。
- 产品意义：降低越权风险，提升高控制型用户的信任感。
- 首发口径：支持“对话内声明即生效”的轻量禁改语义；通过现有上下文注入链路生效，本期不新增 agent 侧治理改动。
- 后续演进：配置化、持久化禁改清单能力纳入后续阶段评估。

### 10.6 可追溯与回退要求（已定）
- 每轮必须可追溯：至少记录主问题域、改动摘要、改动理由、影响范围、确认来源。
- 对“已执行改动”应支持最小粒度回退能力，避免用户对试错型优化产生风险焦虑。
- 回退后应触发一次简版复盘，避免回退导致隐性冲突未被感知。
- 首发最低要求：至少支持“回退最近一轮已执行改动”；多版本日程管理（多轮历史回退）纳入 P2。

### 10.7 本章已确定结论
- 强制确认范围升级为 A/B/C 三类全部硬规则。
- 首发纳入“禁止 AI 改动清单（对话内轻量版）”。
- 回退能力首发最低要求为“回退最近一轮”，多版本管理纳入 P2。

---

## 11. 目标指标与验收标准（已讨论 v1.0）
### 11.1 指标设计原则（已对齐）
- 原则1：指标必须服务于“首次编排全流程”主场景，不用局部请求噪声稀释判断。
- 原则2：指标必须同时覆盖“结果好不好、过程稳不稳、体验可不可信”三层。
- 原则3：指标必须可落地采集，避免依赖大量主观人工打分。

### 11.2 首发核心指标（已定）
| 指标层级 | 指标名 | 指标定义（产品口径） | 首发目标 |
|---|---|---|---|
| 结果指标 | 首次编排可接受收口率 | 首次编排全流程中，满足 `critical=0 且 warning<=1` 并进入收口的会话占比 | >= 70% |
| 过程指标 | 有效优化轮次占比 | 全流程会话内，“有效轮次”占总轮次比例 | >= 50% |
| 质量指标 | 无效回摆率 | 近两轮内被反向撤回的改动占全部改动比例（衡量“折返跑”） | <= 15% |

### 11.3 关键口径定义（已定）
- 有效优化轮次：至少满足“一个核心问题域严重度下降”，且不引入新的 `critical` 问题。
- 可接受收口：达到既定收口阈值（`critical=0 且 warning<=1`）并完成收口说明。
- 无效回摆：同一任务/课程在短窗口内出现“改过去又改回来”的反向变更。

### 11.4 辅助观测指标（不作为首发硬门槛）
- 平均收口轮次：成功收口会话平均用了多少轮（用于评估效率，不单独卡上线）。
- 强制确认后撤销率：已确认改动后被用户撤销的比例（用于识别解释质量问题）。
- 对话内追问率：用户对“为什么这么改”继续追问的比例（用于评估解释清晰度）。

### 11.5 验收规则（已定）
- 验收窗口：按自然周滚动观测，至少连续 2 个观察窗口达标再判定“阶段通过”。
- 达标判定：第 11.2 的 3 个核心指标同时达标。
- 未达标处理：按指标归因回到对应章节优化（流程、工具、解释、确认边界），不允许只调阈值“做数字”。

### 11.6 本章已确定结论
- 首发核心指标冻结为：可接受收口率 + 有效优化轮次占比 + 无效回摆率。
- “有效优化轮次”口径冻结为：至少一个问题域下降，且不新增 `critical`。
- 首发目标值冻结为：`>=70% / >=50% / <=15%`。

---

## 12. 分期路线图（已讨论 v1.0）
### 12.1 分期原则（执行导向）
- 原则1：先闭环再扩面。先把“首次编排可收敛”做扎实，再扩展高级能力。
- 原则2：每期都有“明确不做”，避免执行期目标漂移。
- 原则3：每期必须有可量化出场标准，未达标不进入下一期主目标。

### 12.2 分期总览（已定）
| 阶段 | 核心目标 | 必做交付范围（产品） | 明确不做（冻结范围） | 出场标准（产品） |
|---|---|---|---|---|
| Phase 1 | 建立首次编排的主动优化闭环 | 首次编排默认全流程；后续局部默认旧工具；6个分析工具口径落地；A/B/C三类确认规则；最近一轮回退；第11章三核心指标可观测 | 不做多版本日程管理；不做配置化禁改清单；不扩展到聊天外触发 | 连续2个观察窗口达到第11章目标值（70%/50%/15%） |
| Phase 1.5 | 建立对话内任务类共创可用版 | 聊天触发的完整任务类草案；关键字段确认+普通字段静默落；用户偏好优先于Web通识 | 不做按钮触发；不做全自动无确认落库；不做课程库平台化治理 | 任务类草案一次可用率达到预设阈值（阈值在阶段启动前冻结） |
| Phase 2 | 强化个性化和治理能力 | 配置化禁改清单；多版本日程管理（含多轮回退）；解释与确认策略按用户类型分层 | 不做跨终端复杂编排协同；不做完全自治无人值守优化 | 在保持Phase 1核心指标不退化前提下，撤销率与追问率下降 |
| Phase 3 | 平台化与长期稳定性 | 能力模块化复用；跨场景复用统一口径；长期策略调优与治理看板 | 不新增未经验证的大跨度能力域 | 核心指标长期稳定且新增能力不破坏既有闭环 |

### 12.3 Phase 1 最小可用闭环（MVP）定义（已定）
- 入口：仅“首次编排”自动进入全流程，或用户明确触发全流程。
- 执行：按既定单轮机制运行（观察-动作-结果），并遵守A/B/C确认规则。
- 收口：按既定阈值收口（`critical=0 且 warning<=1`；或触发强制收口）。
- 保障：支持最近一轮回退、保留可追溯记录、支持对话内轻量禁改。
- 验收：以第11章三核心指标作为唯一阶段通过标准。

### 12.4 跨期依赖关系（已定）
- Phase 1 是所有后续阶段前置，未通过则不进入 Phase 2 的主交付。
- Phase 1.5 可与 Phase 1 后段并行推进，但不得影响 Phase 1 指标达标。
- Phase 2 的多版本管理与配置化禁改，依赖 Phase 1 的追溯数据结构稳定。

### 12.5 本章已确定结论
- Phase 1 出场标准固定为：第11章三核心指标连续 2 个窗口达标。
- Phase 1.5 与 Phase 1 时序固定为：允许后半程并行推进，前提是不影响 Phase 1 指标达标。
- Phase 2 主目标冻结为：配置化禁改清单 + 多版本日程管理。

### 12.6 当前执行优先级（新增）
- 当前版本优先目标为“先跑通 Phase 1 ~ Phase 1.5”。
- Phase 2 / Phase 3 暂缓，待前两阶段稳定后再回到路线图继续推进。

---

## 13. 待决策清单（滚动更新）
| 编号 | 议题 | 决策选项 | 当前状态 | 负责人 |
|---|---|---|---|---|
| D-001 | 对话内主动优化目标优先级 | A>B>C / A=C>B / C>A>B | 已确定（A>B>C） | 产品 |
| D-002 | WebSearch 任务类设计触发形态 | 聊天触发 / 聊天外按钮触发 | 已确定（聊天触发） | 产品 |
| D-003 | WebSearch 与用户偏好冲突策略 | 通用知识优先 / 用户偏好优先 | 已确定（用户偏好优先） | 产品 |
| D-004 | 任务类草案落库确认策略 | 全字段确认 / 关键字段确认+普通字段静默落 | 已确定（后者） | 产品 |
| D-005 | 任务类草案“小幅修改”阈值 | 20% / 30% / 40% | 已确定（30%） | 产品 |
| D-006 | 主动优化“有效改进”最小标准 | 严重度下降 / 分数提升 / 二者同时满足 | 已确定（至少一个问题域严重度下降） | 产品 |
| D-007 | 用户是否可强制覆盖单轮主问题域 | 支持 / 不支持 / 有条件支持 | 已确定（支持） | 产品 |
| D-008 | 强制人工确认触发条件 | 精简2类 / 标准3类 / 扩展4类+ | 已确定（涉及移动默认确认；始终同意可自动通过） | 产品 |
| D-009 | 连续无效轮次强制收口阈值 | 2 / 3 / 4 | 已确定（3） | 产品 |
| D-010 | 可接受方案阈值 | critical=0且warning<=0/1/2 | 已确定（critical=0 且 warning<=1） | 产品 |
| D-011 | 用户中途改目标处理策略 | 延续当前轮 / 下轮生效 / 立即重开入场判定 | 已确定（立即重开入场判定） | 产品 |
| D-012 | 科学原则优先级 | 多种排序方案 | 已确定（硬约束 > 截止压力 > 用户偏好 > 负载 > 切换 > 容错） | 产品 |
| D-013 | 原则冲突裁决口径 | 用户优先 / 科学优先 / 分层裁决 | 已确定（分层裁决） | 产品 |
| D-014 | 偏好模型边界 | 产品层负责采集+消费 / 仅消费不采集 | 已确定（仅消费不采集） | 产品 |
| D-015 | 必要点缺失处理 | 静默推断 / ask_user / 混合策略 | 已确定（必要点缺失必须 ask_user） | 产品 |
| D-016 | 后续局部请求默认模式 | 全流程优先 / 局部执行优先 | 已确定（局部执行优先） | 产品 |
| D-017 | 旧工具与新工具关系 | 全替换 / 并行混合 | 已确定（并行混合，旧工具主执行） | 产品 |
| D-018 | `analyze_health` 默认入口触发条件 | 全程默认 / 首次与明确触发默认 | 已确定（首次与明确触发默认） | 产品 |
| D-019 | 分析工具默认明细级别 | summary / full | 已确定（summary） | 产品 |
| D-020 | 第九章默认解释风格 | 纯专业 / 纯通俗 / 专业结论+通俗补充 | 已确定（专业结论+通俗补充） | 产品 |
| D-021 | 第九章最小必显字段 | 2项 / 3项 / 4项+ | 已确定（3项） | 产品 |
| D-022 | 局部模式是否固定边界提示 | 固定提示 / 按需提示 | 已确定（按需提示） | 产品 |
| D-023 | 第十章强制确认范围 | 仅A类（移动类）硬规则 / A+B类硬规则 / A+B+C类硬规则 | 已确定（A+B+C类硬规则） | 产品 |
| D-024 | 首发是否支持禁改清单 | 不支持 / 支持对话内轻量版 / 直接支持配置化 | 已确定（支持对话内轻量版） | 产品 |
| D-025 | 回退能力最低要求 | 不要求 / 回退最近一轮 / 多轮可选回退 | 已确定（回退最近一轮；多版本管理纳入P2） | 产品 |
| D-026 | 第十一章首发核心指标组合 | 多种组合方案 | 已确定（收口率+有效轮次占比+无效回摆率） | 产品 |
| D-027 | “有效优化轮次”口径 | 仅严重度下降 / 严重度下降且不新增critical / 复合打分 | 已确定（严重度下降且不新增critical） | 产品 |
| D-028 | 第十一章首发目标值 | 激进/中性/保守三档 | 已确定（70% / 50% / 15%） | 产品 |
| D-029 | Phase 1 出场标准 | 三核心指标连续1/2/3窗口达标 | 已确定（连续2窗口） | 产品 |
| D-030 | Phase 1.5 与 Phase 1 时序 | 串行 / 后半程并行 / 完全并行 | 已确定（后半程并行） | 产品 |
| D-031 | Phase 2 主目标冻结范围 | 多方案 | 已确定（配置化禁改+多版本管理） | 产品 |
| D-032 | 当前版本执行优先级 | 全路线并推 / 先P1~P1.5后续暂缓 | 已确定（先P1~P1.5后续暂缓） | 产品 |

---

## 14. 章节讨论记录（按“讨论一章、定一章”推进）
### 记录模板
- 讨论章节：
- 结论：
- 未决问题：
- 下一步动作：
- 更新时间：

### 已讨论记录
- 讨论章节：第 1 章 业务背景与问题定义
- 结论：采用“双模式策略”（默认中位最佳实践 + 偏好优先偏移）；读工具按“广覆盖+区间指标”设计；自动优化轮次上限暂定 60。
- 未决问题：时长目标与是否默认开启深度思考的策略未冻结。
- 下一步动作：进入第 2 章，冻结“满意方案”与目标优先级定义。
- 更新时间：2026-04-24
- 讨论章节：第 2 章 产品目标与非目标
- 结论：目标优先级确定为 A（自主迭代收敛）> B（可解释与改进证据）> C（对话内任务类共创草案）；首发先保 A+B 闭环，C 走可用版。
- 未决问题：C 可用版的覆盖范围与补全字段边界待在第 8 章细化。
- 下一步动作：进入第 3 章，明确首发用户分层与高频场景清单。
- 更新时间：2026-04-24
- 讨论章节：第 3 章补充议题 WebSearch 任务类共创
- 结论：定位为“对话内触发、产出完整任务类草案”的增强能力；知识来源为 WebSearch 通用信息 + 用户偏好，冲突时用户优先；字段按关键/普通分级确认。
- 未决问题：关键字段名单与普通字段名单待在后续章节细化。
- 下一步动作：在第 8 章与第 12 章细化能力边界与分期。
- 更新时间：2026-04-24
- 讨论章节：第 3 章阈值口径补充（S1/S2）
- 结论：S1 采用“关键字段修改率<=30%”作为小幅修改阈值；S2 采用“至少一个核心问题域严重度下降”作为有效改进最小标准。
- 未决问题：关键字段清单与核心问题域枚举待后续章节细化。
- 下一步动作：推进第 4 章核心体验原则，固化“单轮单问题域 + 复盘判定”。
- 更新时间：2026-04-24
- 讨论章节：第 3 章 用户与场景（v1.0）
- 结论：用户分层、首发场景、场景优先级、暂不支持边界、S1/S2/S3 判定口径均已形成可冻结版本。
- 未决问题：无（本章内容进入后续引用阶段）。
- 下一步动作：推进第 4 章，明确“单轮策略、复盘规范、停机确认”的执行口径。
- 更新时间：2026-04-24
- 讨论章节：第 4 章 核心体验原则（v0.1 草案）
- 结论：已形成“总纲-单轮规范-复盘规范-停机原则”的完整草案结构。
- 未决问题：D-007（用户强制覆盖策略）与 D-008（强制确认触发条件）待拍板。
- 下一步动作：根据 D-007/D-008 决策冻结第 4 章。
- 更新时间：2026-04-24
- 讨论章节：第 4 章 核心体验原则（v1.0）
- 结论：支持用户强制覆盖单轮主问题域；涉及移动类改动默认确认，用户开启“始终同意”后可自动通过并保留追溯记录。
- 未决问题：无（本章已冻结）。
- 下一步动作：进入第 5 章，细化主动优化流程与收口判定口径。
- 更新时间：2026-04-24
- 讨论章节：第 5 章 主动优化产品流程（v1.0）
- 结论：明确了“轮次定义、首轮强制体检、单轮执行闭环、连续无效3轮收口、critical=0且warning<=1收口、用户改目标即重开入场判定”。
- 未决问题：无（本章已冻结）。
- 下一步动作：进入第 6 章，细化科学安排原则与冲突优先级口径。
- 更新时间：2026-04-24
- 讨论章节：第 6 章 科学安排原则（v1.0）
- 结论：优先级确定为“硬约束 > 截止压力 > 用户偏好 > 负载 > 切换 > 容错”；冲突裁决采用分层规则；“容错”作为统一用户解释术语。
- 未决问题：无（本章已冻结）。
- 下一步动作：进入第 7 章，细化偏好模型与关键字段清单。
- 更新时间：2026-04-24
- 讨论章节：第 7 章 用户需求与偏好模型（v1.0）
- 结论：偏好采集由 memory 负责，产品层仅消费；必要点缺失必须 ask_user；关键/普通字段分级与“时间窗”统一口径已确定。
- 未决问题：无（本章已冻结）。
- 下一步动作：进入第 8 章，细化工具能力蓝图与工具边界。
- 更新时间：2026-04-24
- 讨论章节：第 8 章补充议题（首次全流程 vs 后续局部执行）
- 结论：首次主动排课默认全流程；后续局部请求默认旧工具链；仅在授权或命中指标域诉求时升级分析链路。
- 未决问题：`analyze_health` 是否固定为默认首入口（可跳过）仍待拍板。
- 下一步动作：继续冻结第 8 章细项后推进第 9 章。
- 更新时间：2026-04-24
- 讨论章节：第 8 章 工具能力产品蓝图（v1.0）
- 结论：`analyze_health` 仅在首次编排或明确触发全流程时默认首入口；分析工具默认 `summary`，按需切换 `full`。
- 未决问题：无（本章已冻结）。
- 下一步动作：进入第 9 章，细化对话内体验文案与解释字段规范。
- 更新时间：2026-04-24
- 讨论章节：第 9 章 关键体验与交互要求（v0.1 草案）
- 结论：已形成“双模式体验 + 单轮三段式解释 + 最小解释字段 + 用户控制边界 + 共创体验”的完整草案。
- 未决问题：D-020（默认解释风格）、D-021（最小必显字段数量）、D-022（局部模式固定边界提示）待拍板。
- 下一步动作：完成 D-020~D-022 拍板后冻结第 9 章，进入第 10 章风险与治理。
- 更新时间：2026-04-24
- 讨论章节：第 9 章 关键体验与交互要求（v1.0）
- 结论：解释风格定为“专业结论+通俗补充”；最小必显字段固定 3 项；局部模式边界提示改为按需提示；第 9 章冻结。
- 未决问题：无（本章已冻结）。
- 下一步动作：进入第 10 章，讨论风险、边界与治理策略。
- 更新时间：2026-04-24
- 讨论章节：第 10 章 风险、边界与治理（v0.1 草案）
- 结论：已形成“风险分层 + 过程治理 + 强制确认分级 + 禁改清单 + 回退追溯”的完整草案结构。
- 未决问题：D-023（强制确认范围）、D-024（禁改清单首发形态）、D-025（回退能力最低要求）待拍板。
- 下一步动作：完成 D-023~D-025 拍板后冻结第 10 章，进入第 11 章指标与验收。
- 更新时间：2026-04-24
- 讨论章节：第 10 章 风险、边界与治理（v1.0）
- 结论：强制确认范围定为 A/B/C 全硬规则；首发支持对话内轻量禁改清单；回退最低要求定为“最近一轮”，多版本管理纳入 P2；第 10 章冻结。
- 未决问题：无（本章已冻结）。
- 下一步动作：进入第 11 章，讨论目标指标与验收标准。
- 更新时间：2026-04-24
- 讨论章节：第 11 章 目标指标与验收标准（v0.1 草案）
- 结论：已形成“首发三核心指标 + 关键口径定义 + 验收窗口规则”的完整草案结构。
- 未决问题：D-026（核心指标组合）、D-027（有效轮次口径）、D-028（首发目标值）待拍板。
- 下一步动作：完成 D-026~D-028 拍板后冻结第 11 章，进入第 12 章分期路线图。
- 更新时间：2026-04-24
- 讨论章节：第 11 章 目标指标与验收标准（v1.0）
- 结论：首发核心指标冻结为“收口率+有效轮次占比+无效回摆率”；有效轮次口径冻结为“问题域下降且不新增critical”；目标值冻结为“70% / 50% / 15%”；第 11 章冻结。
- 未决问题：无（本章已冻结）。
- 下一步动作：进入第 12 章，讨论分期路线图与每期冻结范围。
- 更新时间：2026-04-24
- 讨论章节：第 12 章 分期路线图（v0.1 草案）
- 结论：已形成“分期总览 + 每期明确不做 + 出场标准 + 跨期依赖”的执行导向草案。
- 未决问题：D-029（Phase 1出场标准窗口数）、D-030（Phase 1.5与Phase 1时序）、D-031（Phase 2主目标冻结范围）待拍板。
- 下一步动作：完成 D-029~D-031 拍板后冻结第 12 章。
- 更新时间：2026-04-24
- 讨论章节：第 12 章 分期路线图（v1.0）
- 结论：Phase 1 出场标准定为连续2窗口达标；Phase 1.5 采用后半程并行；Phase 2 主目标冻结为“配置化禁改+多版本管理”；当前执行优先级定为先跑通 P1~P1.5、后续阶段暂缓；第 12 章冻结。
- 未决问题：无（本章已冻结）。
- 下一步动作：进入收尾阶段，统一检查决策表与章节状态一致性。
- 更新时间：2026-04-24

---

## 15. 术语表（持续补充）
| 术语 | 业务定义 |
|---|---|
| 主动优化 | AI 连续观测-调整-复盘-收口的优化过程 |
| 收口 | 达到阈值后停止迭代并输出最终方案 |
| 主问题域 | 单轮优化聚焦的首要问题类型 |