# SmartFlow 主动优化功能 PRD(讨论版) ## 0. 文档信息 - 文档状态:讨论中(骨架版) - 适用范围:主动优化(对话内 execute + 对话内任务类共创) - 文档目的:先对齐产品方向,再指导后续实现 - 约束说明:本 PRD 只谈产品,不谈技术实现 --- ## 1. 业务背景与问题定义(已讨论 v0.1) ### 1.1 当前用户问题 - 用户并不总会明确表达需求,存在两类典型入口: - 默认入口:用户未明确偏好,只希望“尽快排好任务类”。 - 偏好入口:用户给出较多约束与倾向(强度、时段、节奏、容错等)。 - 现状容易把优化做成“单点最佳实践”或“一次性建议”,缺少可持续迭代与偏好对齐。 - 因此,工具体系必须同时支持: - 在信息不足时,按科学界公认最佳实践给出稳健中位方案。 - 在用户偏好明确时,优先按用户需求调参,不盲从默认最佳实践。 ### 1.2 核心问题陈述 - 我们要解决的问题是: `如何让 AI 在“科学最佳实践”和“用户个性化需求”之间做可解释、可调节、可收敛的主动优化。` - 该问题直接决定工具设计方向: - 读工具覆盖面必须足够广,能够支撑不同偏好下的判断。 - 每个核心指标必须是“区间型”而不是“单点型”: - 默认站在中位(平衡值)。 - 能向左/向右偏移,对应不同用户诉求。 ### 1.3 本章已确定结论 - 首发主用户策略: - 若用户需求不提或较弱,系统默认采用中位最佳实践快速生成。 - 若用户需求明确且较多,系统优先满足用户需求,科学原则作为安全边界。 - “满意方案”判定口径(本章层面): - 本质不是固定模板,而是“在用户诉求方向上的可接受平衡点”。 - 默认用户采用中位平衡;偏好用户采用定向偏移平衡。 - 自动优化容忍边界(当前已定项): - 轮次上限暂定 60 轮。 - 时长与是否开启深度思考的权衡暂不在本章冻结,后续章节决策。 ### 1.4 对后续章节的约束 - 第 6 章(科学原则)必须给出“中位默认 + 双向偏移”的可解释规则。 - 第 8 章(工具蓝图)必须体现“覆盖广度 + 区间刻度”的产品能力。 - 第 11 章(指标验收)必须衡量“默认模式质量”与“偏好对齐质量”两条线。 --- ## 2. 产品目标与非目标(已讨论 v0.1) ### 2.1 产品目标定义与优先级(已定) - 目标 A(最高优先级):自主迭代收敛 - 定义:AI 以“观测-调整-复盘”循环持续优化,直到达到可接受方案再收口。 - 用户价值:减少用户逐步指挥成本,体现“主动出击”。 - 目标 B(第二优先级):可解释且有改进证据 - 定义:每轮调整都要给出“为何调整、调整内容、前后差异”。 - 用户价值:可控、可信,避免“黑箱瞎调”。 - 目标 C(第三优先级):对话内任务类共创草案 - 定义:用户在聊天中触发后,AI 通过反问与检索产出完整任务类草案。 - 用户价值:降低冷启动门槛,减少配置负担,避免新增第二交互区。 - 优先级结论:`A > B > C`。 ### 2.2 阶段目标策略(已定) - 首发必须保证:A 与 B 构成闭环能力。 - 首发可落可迭代:C 以“可用版”上线,后续逐步提高草案准确率与覆盖深度。 - 取舍原则:若资源冲突,优先保障 A;若 A 满足基本可用,再保障 B;C 按剩余资源推进。 ### 2.3 非目标(已定) - 不追求一次优化即全局最优,目标是“可收敛的高质量可接受方案”。 - 不追求首发覆盖全部学习风格与全部人群偏好。 - 不追求在高风险场景下完全替代用户决策。 - 不以“工具数量”作为目标,避免能力堆叠但无法形成闭环价值。 ### 2.4 本章已确定结论 - 我们的核心差异化能力是 A(主动迭代优化),不是一次性建议或单轮算法执行。 - B 是 A 的信任保障,必须同步建设,不能后补。 - C 是重要入口能力,但在首发阶段不应挤占 A/B 的闭环建设资源。 ### 2.5 对后续章节的约束 - 第 5 章(主动优化流程)必须完整体现 A 的循环收敛机制。 - 第 9 章(交互要求)必须体现 B 的解释与改进证据结构。 - 第 12 章(分期路线图)必须以 `A > B > C` 排序规划交付。 --- ## 3. 用户与场景(已讨论 v1.0) ### 3.1 目标用户分层(已形成草案) | 用户分层 | 典型特征 | 当前痛点 | 价值诉求 | 首发优先级 | |---|---|---|---|---| | 极速排程型 | 不想多聊,希望尽快出方案 | 参数配置成本高、上手慢 | 一键可用、少改动 | P1 | | 偏好驱动型 | 明确表达强度/时段/节奏偏好 | 通用最佳实践不一定贴合个人需求 | 结果沿偏好方向明显偏移、可控可解释 | P0(首发主优先) | | 反复调优型 | 接受多轮优化,关注持续变好 | 容易遇到来回调整、无效微调 | 稳定收敛、每轮有改进证据 | P1 | ### 3.2 首发核心场景清单(已形成草案) | 场景 | 触发方式 | 用户期望 | 成功标准 | |---|---|---|---| | 场景 S1:对话内任务类共创草案 | 用户在聊天中提出“帮我设计任务类” | 快速得到完整且可确认的任务类草案 | 用户可直接采纳或仅小幅修改后采纳 | | 场景 S2:对话内“帮我优化一下” | 用户在对话中发起优化请求 | AI 主动多轮调整并收口 | 至少完成 1-2 轮有效改进且最终可交付 | | 场景 S3:对话内“按我的偏好重排” | 用户明确给出偏好/约束 | AI 优先满足偏好,不盲从默认最佳实践 | 结果明显朝偏好方向偏移且不破坏硬约束 | ### 3.3 场景优先策略(已形成草案) - 首发优先主线:偏好驱动型(P0)。 - 原因:该人群最能体现本功能差异化价值,即“可调节的主动优化”,而非一次性默认排程。 - 策略要求:所有首发核心场景都必须支持“默认中位 + 偏好偏移”双模式。 ### 3.4 暂不支持场景清单(草案) | 暂不支持场景 | 暂缓原因 | 后续进入条件 | |---|---|---| | 跨超长周期(如整学期/跨学期)全局最优规划 | 目标跨度过大,首发优先保证局部收敛质量 | 收敛稳定性和性能目标达标后再纳入 | | 多主体联合排程(多人协同/冲突协商) | 交互复杂度高,超出首发边界 | 单人场景成熟后评估 | | 高风险不可逆决策自动执行 | 需要更强确认链路与责任边界 | 风险治理机制完善后评估 | ### 3.5 本章已确定的判定阈值口径 - S1(任务类共创草案“小幅修改”阈值): - 定义:关键字段修改率 <= 30% 视为“小幅修改”。 - 用途:衡量草案可用性与采纳质量(用于产品验收,不作为用户前台提示)。 - S2(主动优化“有效改进”最小标准): - 定义:至少一个核心问题域的严重度下降,视为“有效改进”。 - 严重度层级:`critical > warning > info`。 - 用途:判断单轮优化是否有实质收益,避免无效循环。 - S3(偏好冲突裁决规则): - 定义:用户偏好优先,科学原则兜底。 - 用途:在“通用最佳实践 vs 用户个性化需求”冲突时,给出统一裁决路径。 ### 3.6 新增场景候选:对话内任务类共创(WebSearch 增强) #### 3.6.1 场景定义(已讨论结论) - 场景目标:由 AI 在对话中产出“完整任务类草案”,而非仅补全单个参数。 - 触发方式:仅支持聊天触发,不新增聊天外按钮入口。 - 原因:该能力需要多轮反问与澄清,若放在聊天外容易形成“第二对话区”,增加认知负担。 #### 3.6.2 信息来源优先级(已讨论结论) - WebSearch 负责:补充通用知识(如课程信息、学习路径共识、考试结构常识)。 - 用户输入负责:表达个人偏好与约束(强度、时段、节奏、目标侧重)。 - 冲突处理:用户偏好优先,通用知识仅作参考与兜底。 #### 3.6.3 字段确认策略(已讨论结论) - 关键字段:必须用户确认后落库。 - 普通字段:允许静默落库,并在结果摘要中可追溯展示。 #### 3.6.4 成功标准(草案) - 草案采纳率(用户直接采纳完整草案的比例)。 - 草案修改率(用户修改后采纳的比例)。 - 后续优化收敛效率(基于该草案进入主动优化后的平均有效轮次变化)。 --- ## 4. 核心体验原则(已讨论 v1.0) ### 4.1 体验总纲(草案) - 原则 1:先看全局,再做局部。 - 先识别主要矛盾,再执行局部调整,避免“盲调”。 - 原则 2:单轮单主问题域。 - 每轮只聚焦一个主问题域,降低震荡与来回改动。 - 原则 3:每轮必须复盘并判定有效性。 - 任何调整都要有“是否变好”的结论,不允许无结论进入下一轮。 - 原则 4:达标即收口。 - 达到可接受阈值后立即停止,避免过度优化。 - 原则 5:偏好优先、科学兜底。 - 用户偏好是目标方向,科学原则提供安全边界。 - 原则 6:硬约束优先于体验优化。 - 先保证不违约束,再追求负载/节奏/切换等体验改进。 ### 4.2 单轮优化行为规范(草案) - 规范 A:本轮开始前必须声明“主问题域 + 目标变化”。 - 规范 B:单轮仅允许一个主问题域,允许附带次问题观察但不展开动作。 - 规范 C:同一主问题域若尚未出现有效改进,不应频繁切换到其他问题域。 - 规范 D:若用户明确指定优化方向,优先采用用户方向作为本轮主问题域。 ### 4.3 单轮复盘输出规范(草案) - 每轮都应给出三段式结果: - 本轮目标:本轮要改善什么。 - 本轮改动:改了哪些关键位置。 - 本轮结果:哪些指标或问题严重度发生了变化。 - 单轮判定结果仅允许两类: - `有效改进`:至少一个核心问题域严重度下降。 - `无效改进`:无严重度下降,需换策略或收口。 ### 4.4 收口与停机原则(已定) - 正常收口条件: - 达到可接受方案阈值; - 或主要问题已降至可接受等级。 - 防循环停机条件: - 连续多轮无有效改进; - 或达到轮次上限(当前上限 60)。 - 强制人工确认规则(已定): - 只要涉及“移动类改动”,默认都需用户确认后执行。 - 仅当用户显式开启“始终同意”时,允许自动通过确认。 - 即使自动通过,也需在结果中保留可追溯记录。 ### 4.5 本章已确定结论 - Q4-1 结论:支持用户强制覆盖单轮主问题域。 - 说明:前端已支持用户自由拖动,该能力与产品原则一致。 - Q4-2 结论:采用“移动必确认,始终同意可自动通过”的统一规则。 - 说明:确认链路以用户控制权优先,兼顾效率模式。 --- ## 5. 主动优化产品流程(已讨论 v1.0) ### 5.0 模式切换策略(补充,已定) - 首次主动排课(粗排 + 主动微调)默认启用全流程模式。 - 后续局部调整请求默认启用局部执行模式(优先旧工具链)。 - 仅在以下情况升级为全流程模式: - 用户明确授权“重新全局优化”; - 用户诉求明确命中指标域(如切换过多、太满、容错不足等)。 ### 5.1 流程总览(已定) 1. 入场判定:确定本次优化模式(默认中位 / 偏好驱动)、目标窗口、可改动范围。 2. 首轮体检:强制先体检,再进入改动(避免盲调)。 3. 迭代优化:按“单轮主问题域”执行改动与复盘。 4. 收口判定:达标即收口;未达标则继续循环。 5. 异常处理:冲突、失败、用户改目标时按规则回退或重开。 6. 结果交付:输出改动摘要、改进证据、剩余风险与下一步建议。 ### 5.2 轮次定义(已定) - “1 轮优化”定义为一次完整闭环: 1. 选定主问题域; 2. 生成本轮改动方案; 3. 通过确认门禁; 4. 执行改动; 5. 复盘并判定有效/无效。 - 说明: - 仅观察不改动,不计入优化轮。 - “连续无效轮次”仅统计“已执行改动但未出现有效改进”的轮。 ### 5.3 详细流程规则(已定) #### 5.3.1 入场判定 - 输入:用户目标、偏好、限制、当前日程状态。 - 输出:本次优化上下文(模式、范围、约束、初始问题池)。 - 规则:若用户目标不明确,默认按中位最佳实践入场。 - 规则补充: - 局部执行模式可跳过全流程体检,直接做最小必要校验后执行。 - 全流程模式必须先体检再改动。 #### 5.3.2 首轮体检(强制) - 必须先完成体检再改动。 - 体检结果至少包含:问题清单、严重度排序、建议主问题域。 - 禁止跳过体检直接执行改动。 #### 5.3.3 单轮优化执行 - 每轮必须先声明:本轮主问题域与目标变化。 - 本轮仅允许一个主问题域,避免并发多目标拉扯。 - 涉及移动类改动: - 默认需用户确认; - 用户开启“始终同意”后可自动通过; - 自动通过仍需可追溯记录。 #### 5.3.4 单轮复盘判定 - 有效改进标准:至少一个核心问题域严重度下降。 - 无效改进标准:执行改动后无严重度下降。 - 无效轮次处置:允许换策略继续,但需计入连续无效轮次计数。 ### 5.4 收口规则(已定) - 正常收口阈值: - `critical = 0`; - `warning <= 1`。 - 防循环强制收口: - 连续无效轮次 >= 3; - 或达到总轮次上限(当前 60 轮)。 - 收口后必须输出:已解决问题、未解决问题、建议后续动作。 ### 5.5 用户中途改目标处理(已定) - 当用户在优化过程中明确变更目标/偏好时: - 立即重开“入场判定”; - 清空当前主问题域上下文; - 基于新目标重新体检并进入下一轮。 - 目的:避免沿旧目标继续优化导致结果跑偏。 ### 5.6 本章已确定结论 - 首轮体检强制执行。 - 可接受阈值采用 `critical=0 且 warning<=1`。 - 连续无效 3 轮即强制收口。 - 用户中途改目标时,必须重开入场判定。 - 首次主动排课默认全流程;后续局部调整默认旧工具链。 --- ## 6. 科学安排原则(已讨论 v1.0) ### 6.1 原则优先级(已定) 按“上位约束可否决下位偏好”的顺序执行: 1. 硬约束合法性(不可冲突、不可越界、不可违规改动) 2. 截止与时间压力(先保证不发生明显延期风险) 3. 用户偏好方向(在上位约束允许范围内优先满足) 4. 负载均衡(避免极端堆积与突增) 5. 认知切换(控制高频切换与过长连续块) 6. 容错能力(可用空窗规模,平衡稳定性与利用率) ### 6.2 冲突裁决规则(已定) | 冲突场景 | 裁决规则 | 用户可覆盖性 | |---|---|---| | 用户偏好 vs 硬约束合法性 | 硬约束优先,拒绝违规方案并给替代建议 | 不可覆盖 | | 用户偏好 vs 截止/时间压力红线 | 截止压力优先,默认前移高风险任务 | 可显式确认后覆盖部分策略 | | 用户偏好 vs 下位优化项(负载/切换/容错) | 用户偏好优先,科学原则兜底 | 可覆盖 | | 无明确用户偏好 | 采用中位最佳实践 | 不适用 | ### 6.3 原则刻度化口径(中位默认 + 双向偏移) | 原则维度 | 中位默认 | 左偏 | 右偏 | |---|---|---|---| | 负载强度 | 平衡推进 | 低强度(更松) | 冲刺强度(更满) | | 截止推进 | 均衡前移 | 早缓冲(更早完成) | 临近冲刺(更晚推进) | | 认知切换 | 适度切换 | 低切换(同类聚合) | 高切换(灵活穿插) | | 容错能力 | 平衡容错 | 高容错(多留大空窗) | 低容错(任务排得更满) | ### 6.4 软硬约束分层(已定) - 硬约束: - 合法性约束(冲突、越界、禁止改动范围) - 截止/时间压力红线 - 软约束: - 负载均衡 - 认知切换 - 容错能力 - 执行原则: - 先满足硬约束,再在软约束内做偏好优化。 ### 6.5 本章已确定结论 - 科学原则优先级已固定为“硬约束与截止优先,偏好次之,其余体验项随后优化”。 - 冲突裁决已固定为“分层裁决”:不可覆盖项直接否决,可覆盖项通过显式确认处理。 - “容错”作为用户可理解维度,已替代“空窗/缓冲”作为统一外显术语。 --- ## 7. 用户需求与偏好模型(已讨论 v1.0) ### 7.1 边界定义(已定) - 本章只定义“偏好消费与确认规则”,不定义“偏好采集机制”。 - 偏好采集由 memory 系统负责: - 持续采集; - 去重注入; - 产品层直接消费。 ### 7.2 偏好消费优先级(已定) 1. 用户显式输入(最高优先级) 2. memory 注入偏好(次优先) 3. WebSearch 通用知识(仅补全,不可覆盖用户偏好) 4. 无信息时采用中位默认值 ### 7.3 必要点判定与 ask_user 规则(已定) - 必要点定义:缺失会导致方案不可执行或高风险误判的关键信息。 - 必要点缺失时:必须 ask_user,不允许静默推断。 - 当前必要点清单: - 时间窗(至少明确 end,start 可按策略补齐); - 强度方向(均匀/冲刺); - 容错偏好(高容错/平衡/低容错); - 禁排时段(若用户表达了禁忌但未结构化)。 ### 7.4 字段分级(已定) #### 7.4.1 关键字段(必须确认) - 时间窗(start/end,截止时间统一归入 end,不单列重复字段) - 强度策略(均匀/冲刺) - 总预算(total_slots) - 容错偏好(高容错/平衡/低容错) - 禁排时段(excluded_slots) - 任务项清单完整性(是否齐全) - 任务项优先级/依赖关系(如用户提供) #### 7.4.2 普通字段(可静默落) - 推荐时段偏好权重(上午/下午/晚间) - 同类任务聚合偏好(聚合/平衡/穿插) - 阶段里程碑拆分建议 - 标准化知识标签与学习路径备注(命中统一标准时结构化落地;未命中仅文本备注) ### 7.5 口径修正(已定) - 不在偏好层管理“单次学习块长度”: - 该项属于任务类/任务项结构属性,不作为本章普通偏好字段。 - 统一命名“时间窗”: - “截止时间”视为时间窗 end 的口语表达,不单列独立字段。 ### 7.6 本章已确定结论 - 偏好由 memory 采集,产品层只做消费与确认。 - 必要点缺失必须 ask_user,避免静默误判。 - 字段分级与统一命名口径已固定,可直接指导后续工具设计与交互文案。 --- ## 8. 工具能力产品蓝图(已讨论 v1.0) ### 8.1 工具分层(产品视角) - 事实读取层:告诉 AI“现在是什么” - 分析体检层:告诉 AI“问题在哪” - 评估复盘层:告诉 AI“这轮是否变好” - 执行动作层:让 AI 进行可控调整(以旧工具链为主) ### 8.2 混合工具策略(新增) - 策略 1:旧工具保留为主执行层,不做全线替换。 - 策略 2:新分析工具作为导航层,主要用于首次主动排课与指标域重优化。 - 策略 3:局部请求默认旧工具直达执行,避免过度主动出击。 - 策略 4:仅在用户授权或命中指标域诉求时,升级为分析链路。 ### 8.3 对话内能力(草案) | 能力 | 适用模式 | 用户价值 | AI 产出 | 风险控制 | |---|---|---|---|---| | analyze_health(总览体检) | 首次编排/明确触发全流程时默认首入口(可跳过) | 快速定位主要问题 | metrics/issues/next_actions | 防盲钻、防误判 | | analyze_load | 全流程模式/指标域触发 | 识别过载与波动 | 负载证据 + 动作建议 | 防局部最优 | | analyze_subjects | 全流程模式/指标域触发 | 识别科目节奏与预算压力 | 分布证据 + 动作建议 | 防断档 | | analyze_context | 全流程模式/指标域触发 | 识别切换过高与碎片化 | 切换证据 + 动作建议 | 防认知疲劳 | | analyze_tolerance | 全流程模式/指标域触发 | 识别容错不足风险 | 容错证据 + 动作建议 | 防计划脆弱 | | build_task_class_draft(WebSearch增强) | 共创模式 | 从 0 到 1 生成可用任务类草案 | 完整任务类草案 + 关键字段确认请求 | 防知识幻觉、防越权落库 | ### 8.4 分析工具输出结构规范(草案) - 分析工具统一返回三段: - `metrics`:测量值; - `issues`:问题及严重度(critical/warning/info); - `next_actions`:下一步建议(只建议,不自动执行)。 - 细节级别: - 默认 `summary`; - 用户追问或需要取证时使用 `full`。 ### 8.5 WebSearch 共创能力边界(新增) - 本能力定位:对话内共创,不替代主动优化主线。 - 输出形态:完整任务类草案,不是单字段建议。 - 决策边界:用户偏好优先于通用知识。 - 安全边界:关键字段需确认,普通字段可静默落并可追溯。 ### 8.6 本章已确定结论 - `analyze_health` 仅在“首次编排”或“用户明确触发全流程”时作为默认首入口(可跳过)。 - 分析工具默认明细级别统一为 `summary`,用户追问或需取证时切换 `full`。 --- ## 9. 关键体验与交互要求(已讨论 v1.0) ### 9.1 本章定位(已对齐) - 本章只定义“用户看到什么、怎么被解释、何时需要确认”。 - 不定义算法细节、不定义工具内部实现。 - 目标是让主动优化“有方向、可理解、不过度”。 ### 9.2 双模式对话体验(已对齐) - 首次编排/明确触发全流程时:进入“体检 + 迭代优化”模式,先给全局判断,再给单轮改进。 - 后续局部请求时:默认走旧工具的局部执行链,不擅自升级为全流程。 - 仅在两类条件下可升级全流程:用户明确授权;用户诉求明确命中指标域(如“切换太多”“太满了”)。 ### 9.3 单轮解释三段式(已定) - 观察段:本轮先说“我看到了什么问题”,并给最小证据(指标或现象)。 - 动作段:再说“我准备怎么改、为什么这么改”,同时点明遵循了哪条科学原则与用户偏好。 - 结果段:最后说“改完发生了什么变化”,并给下一步建议(继续微调或收口)。 - 三段式的意义:让用户始终知道“问题-动作-结果”的闭环,避免 AI 黑箱式挪动。 ### 9.4 解释字段最小集合(已定) - 字段1(必显):本轮主问题域(负载/切换/截止/容错/科目分布等)。 - 字段2(必显):本轮改动摘要(改了哪些任务、从哪到哪、影响了哪几天)。 - 字段3(必显):改动理由(科学原则 + 用户偏好 + 冲突裁决依据)。 - 字段4(建议显):前后对比(至少 1 个核心指标变化)。 - 字段5(建议显):副作用提示(例如“容错下降”“切换略增”)。 - 字段6(建议显):下一步建议(继续某方向微调,或建议收口)。 - 默认规则:最少展示前 3 字段;全流程场景建议展示 1-6 字段。 ### 9.5 用户控制与确认边界(已对齐) - 涉及“移动类改动”默认都要确认;若用户已开启“始终同意”,可自动通过但需可追溯。 - 用户可自由手动拖动,系统应尊重手动结果,不反向强改。 - 用户可随时改目标;改目标后按既定规则重开入场判定。 - AI 可主动给建议,但不能越权执行超出用户授权范围的改动。 ### 9.6 对话内任务类共创体验(已对齐) - 仅聊天触发,不做聊天外按钮触发。 - 输出形态为“完整任务类草案”,而非零散参数建议。 - 关键字段必须确认;普通字段可静默落并保留可追溯记录。 - 用户偏好与 Web 通用知识冲突时,用户偏好优先。 ### 9.7 本章已确定结论 - 默认解释风格采用“专业结论 + 通俗补充”双层表达。 - 最小必显字段固定为 3 项:主问题域、改动摘要、改动理由。 - 局部模式下不强制固定边界提示,是否提示由上下文按需决定。 --- ## 10. 风险、边界与治理(已讨论 v1.0) ### 10.1 风险分层(产品视角) - R1 收敛风险:LLM 长时间小步试探但无实质改进,造成轮次浪费。 - R2 体验风险:指标看起来改善,但用户主观体感变差(例如更累、更碎)。 - R3 越权风险:AI 在未充分授权下做了超出预期范围的改动。 - R4 可信风险:解释与真实改动不一致,导致用户不信任系统。 - R5 数据风险:关键信息缺失/冲突,导致判断前提不成立却仍继续优化。 ### 10.2 产品边界(已对齐) - 边界1:全流程优化默认仅用于首次编排或用户明确触发,后续局部请求默认局部执行。 - 边界2:涉及移动类改动默认确认;用户开启“始终同意”后可自动通过,但需保留追溯。 - 边界3:用户手动拖动结果优先,AI 不得反向强改。 - 边界4:用户可随时改目标;改目标后立即重开入场判定。 - 边界5:用户偏好与通用知识冲突时,用户偏好优先。 ### 10.3 治理机制(过程治理) - 入场治理:先判定是“全流程模式”还是“局部模式”;必要信息缺失必须 ask_user,不允许静默猜测。 - 轮中治理:坚持单轮单主问题域;每轮都输出“观察-动作-结果”,并判断是否有效改进。 - 收口治理:命中 `critical=0 且 warning<=1` 立即收口;连续无效 3 轮或达到轮次上限强制收口。 - 出口治理:收口时必须显式说明“当前残留问题 + 可选后续动作”,避免用户误以为已全局最优。 ### 10.4 强制确认清单(已定) - A类(必须确认):任何会导致任务/课程位置变化的移动类改动(已拍板规则)。 - B类(必须确认):会改变用户明确声明偏好的改动(如偏好时段、偏好节奏)。 - C类(必须确认):一次影响多个日期的大范围联动调整(避免“无感大改”)。 - 说明:A/B/C 三类均为硬规则;若用户开启“始终同意”,可自动通过但须完整追溯。 ### 10.5 “禁止 AI 改动清单”能力(已定) - 能力定义:用户可声明一组“不可被 AI 主动改动”的对象或范围(例如某类固定课程/某些日期)。 - 产品意义:降低越权风险,提升高控制型用户的信任感。 - 首发口径:支持“对话内声明即生效”的轻量禁改语义;通过现有上下文注入链路生效,本期不新增 agent 侧治理改动。 - 后续演进:配置化、持久化禁改清单能力纳入后续阶段评估。 ### 10.6 可追溯与回退要求(已定) - 每轮必须可追溯:至少记录主问题域、改动摘要、改动理由、影响范围、确认来源。 - 对“已执行改动”应支持最小粒度回退能力,避免用户对试错型优化产生风险焦虑。 - 回退后应触发一次简版复盘,避免回退导致隐性冲突未被感知。 - 首发最低要求:至少支持“回退最近一轮已执行改动”;多版本日程管理(多轮历史回退)纳入 P2。 ### 10.7 本章已确定结论 - 强制确认范围升级为 A/B/C 三类全部硬规则。 - 首发纳入“禁止 AI 改动清单(对话内轻量版)”。 - 回退能力首发最低要求为“回退最近一轮”,多版本管理纳入 P2。 --- ## 11. 目标指标与验收标准(已讨论 v1.0) ### 11.1 指标设计原则(已对齐) - 原则1:指标必须服务于“首次编排全流程”主场景,不用局部请求噪声稀释判断。 - 原则2:指标必须同时覆盖“结果好不好、过程稳不稳、体验可不可信”三层。 - 原则3:指标必须可落地采集,避免依赖大量主观人工打分。 ### 11.2 首发核心指标(已定) | 指标层级 | 指标名 | 指标定义(产品口径) | 首发目标 | |---|---|---|---| | 结果指标 | 首次编排可接受收口率 | 首次编排全流程中,满足 `critical=0 且 warning<=1` 并进入收口的会话占比 | >= 70% | | 过程指标 | 有效优化轮次占比 | 全流程会话内,“有效轮次”占总轮次比例 | >= 50% | | 质量指标 | 无效回摆率 | 近两轮内被反向撤回的改动占全部改动比例(衡量“折返跑”) | <= 15% | ### 11.3 关键口径定义(已定) - 有效优化轮次:至少满足“一个核心问题域严重度下降”,且不引入新的 `critical` 问题。 - 可接受收口:达到既定收口阈值(`critical=0 且 warning<=1`)并完成收口说明。 - 无效回摆:同一任务/课程在短窗口内出现“改过去又改回来”的反向变更。 ### 11.4 辅助观测指标(不作为首发硬门槛) - 平均收口轮次:成功收口会话平均用了多少轮(用于评估效率,不单独卡上线)。 - 强制确认后撤销率:已确认改动后被用户撤销的比例(用于识别解释质量问题)。 - 对话内追问率:用户对“为什么这么改”继续追问的比例(用于评估解释清晰度)。 ### 11.5 验收规则(已定) - 验收窗口:按自然周滚动观测,至少连续 2 个观察窗口达标再判定“阶段通过”。 - 达标判定:第 11.2 的 3 个核心指标同时达标。 - 未达标处理:按指标归因回到对应章节优化(流程、工具、解释、确认边界),不允许只调阈值“做数字”。 ### 11.6 本章已确定结论 - 首发核心指标冻结为:可接受收口率 + 有效优化轮次占比 + 无效回摆率。 - “有效优化轮次”口径冻结为:至少一个问题域下降,且不新增 `critical`。 - 首发目标值冻结为:`>=70% / >=50% / <=15%`。 --- ## 12. 分期路线图(已讨论 v1.0) ### 12.1 分期原则(执行导向) - 原则1:先闭环再扩面。先把“首次编排可收敛”做扎实,再扩展高级能力。 - 原则2:每期都有“明确不做”,避免执行期目标漂移。 - 原则3:每期必须有可量化出场标准,未达标不进入下一期主目标。 ### 12.2 分期总览(已定) | 阶段 | 核心目标 | 必做交付范围(产品) | 明确不做(冻结范围) | 出场标准(产品) | |---|---|---|---|---| | Phase 1 | 建立首次编排的主动优化闭环 | 首次编排默认全流程;后续局部默认旧工具;6个分析工具口径落地;A/B/C三类确认规则;最近一轮回退;第11章三核心指标可观测 | 不做多版本日程管理;不做配置化禁改清单;不扩展到聊天外触发 | 连续2个观察窗口达到第11章目标值(70%/50%/15%) | | Phase 1.5 | 建立对话内任务类共创可用版 | 聊天触发的完整任务类草案;关键字段确认+普通字段静默落;用户偏好优先于Web通识 | 不做按钮触发;不做全自动无确认落库;不做课程库平台化治理 | 任务类草案一次可用率达到预设阈值(阈值在阶段启动前冻结) | | Phase 2 | 强化个性化和治理能力 | 配置化禁改清单;多版本日程管理(含多轮回退);解释与确认策略按用户类型分层 | 不做跨终端复杂编排协同;不做完全自治无人值守优化 | 在保持Phase 1核心指标不退化前提下,撤销率与追问率下降 | | Phase 3 | 平台化与长期稳定性 | 能力模块化复用;跨场景复用统一口径;长期策略调优与治理看板 | 不新增未经验证的大跨度能力域 | 核心指标长期稳定且新增能力不破坏既有闭环 | ### 12.3 Phase 1 最小可用闭环(MVP)定义(已定) - 入口:仅“首次编排”自动进入全流程,或用户明确触发全流程。 - 执行:按既定单轮机制运行(观察-动作-结果),并遵守A/B/C确认规则。 - 收口:按既定阈值收口(`critical=0 且 warning<=1`;或触发强制收口)。 - 保障:支持最近一轮回退、保留可追溯记录、支持对话内轻量禁改。 - 验收:以第11章三核心指标作为唯一阶段通过标准。 ### 12.4 跨期依赖关系(已定) - Phase 1 是所有后续阶段前置,未通过则不进入 Phase 2 的主交付。 - Phase 1.5 可与 Phase 1 后段并行推进,但不得影响 Phase 1 指标达标。 - Phase 2 的多版本管理与配置化禁改,依赖 Phase 1 的追溯数据结构稳定。 ### 12.5 本章已确定结论 - Phase 1 出场标准固定为:第11章三核心指标连续 2 个窗口达标。 - Phase 1.5 与 Phase 1 时序固定为:允许后半程并行推进,前提是不影响 Phase 1 指标达标。 - Phase 2 主目标冻结为:配置化禁改清单 + 多版本日程管理。 ### 12.6 当前执行优先级(新增) - 当前版本优先目标为“先跑通 Phase 1 ~ Phase 1.5”。 - Phase 2 / Phase 3 暂缓,待前两阶段稳定后再回到路线图继续推进。 --- ## 13. 待决策清单(滚动更新) | 编号 | 议题 | 决策选项 | 当前状态 | 负责人 | |---|---|---|---|---| | D-001 | 对话内主动优化目标优先级 | A>B>C / A=C>B / C>A>B | 已确定(A>B>C) | 产品 | | D-002 | WebSearch 任务类设计触发形态 | 聊天触发 / 聊天外按钮触发 | 已确定(聊天触发) | 产品 | | D-003 | WebSearch 与用户偏好冲突策略 | 通用知识优先 / 用户偏好优先 | 已确定(用户偏好优先) | 产品 | | D-004 | 任务类草案落库确认策略 | 全字段确认 / 关键字段确认+普通字段静默落 | 已确定(后者) | 产品 | | D-005 | 任务类草案“小幅修改”阈值 | 20% / 30% / 40% | 已确定(30%) | 产品 | | D-006 | 主动优化“有效改进”最小标准 | 严重度下降 / 分数提升 / 二者同时满足 | 已确定(至少一个问题域严重度下降) | 产品 | | D-007 | 用户是否可强制覆盖单轮主问题域 | 支持 / 不支持 / 有条件支持 | 已确定(支持) | 产品 | | D-008 | 强制人工确认触发条件 | 精简2类 / 标准3类 / 扩展4类+ | 已确定(涉及移动默认确认;始终同意可自动通过) | 产品 | | D-009 | 连续无效轮次强制收口阈值 | 2 / 3 / 4 | 已确定(3) | 产品 | | D-010 | 可接受方案阈值 | critical=0且warning<=0/1/2 | 已确定(critical=0 且 warning<=1) | 产品 | | D-011 | 用户中途改目标处理策略 | 延续当前轮 / 下轮生效 / 立即重开入场判定 | 已确定(立即重开入场判定) | 产品 | | D-012 | 科学原则优先级 | 多种排序方案 | 已确定(硬约束 > 截止压力 > 用户偏好 > 负载 > 切换 > 容错) | 产品 | | D-013 | 原则冲突裁决口径 | 用户优先 / 科学优先 / 分层裁决 | 已确定(分层裁决) | 产品 | | D-014 | 偏好模型边界 | 产品层负责采集+消费 / 仅消费不采集 | 已确定(仅消费不采集) | 产品 | | D-015 | 必要点缺失处理 | 静默推断 / ask_user / 混合策略 | 已确定(必要点缺失必须 ask_user) | 产品 | | D-016 | 后续局部请求默认模式 | 全流程优先 / 局部执行优先 | 已确定(局部执行优先) | 产品 | | D-017 | 旧工具与新工具关系 | 全替换 / 并行混合 | 已确定(并行混合,旧工具主执行) | 产品 | | D-018 | `analyze_health` 默认入口触发条件 | 全程默认 / 首次与明确触发默认 | 已确定(首次与明确触发默认) | 产品 | | D-019 | 分析工具默认明细级别 | summary / full | 已确定(summary) | 产品 | | D-020 | 第九章默认解释风格 | 纯专业 / 纯通俗 / 专业结论+通俗补充 | 已确定(专业结论+通俗补充) | 产品 | | D-021 | 第九章最小必显字段 | 2项 / 3项 / 4项+ | 已确定(3项) | 产品 | | D-022 | 局部模式是否固定边界提示 | 固定提示 / 按需提示 | 已确定(按需提示) | 产品 | | D-023 | 第十章强制确认范围 | 仅A类(移动类)硬规则 / A+B类硬规则 / A+B+C类硬规则 | 已确定(A+B+C类硬规则) | 产品 | | D-024 | 首发是否支持禁改清单 | 不支持 / 支持对话内轻量版 / 直接支持配置化 | 已确定(支持对话内轻量版) | 产品 | | D-025 | 回退能力最低要求 | 不要求 / 回退最近一轮 / 多轮可选回退 | 已确定(回退最近一轮;多版本管理纳入P2) | 产品 | | D-026 | 第十一章首发核心指标组合 | 多种组合方案 | 已确定(收口率+有效轮次占比+无效回摆率) | 产品 | | D-027 | “有效优化轮次”口径 | 仅严重度下降 / 严重度下降且不新增critical / 复合打分 | 已确定(严重度下降且不新增critical) | 产品 | | D-028 | 第十一章首发目标值 | 激进/中性/保守三档 | 已确定(70% / 50% / 15%) | 产品 | | D-029 | Phase 1 出场标准 | 三核心指标连续1/2/3窗口达标 | 已确定(连续2窗口) | 产品 | | D-030 | Phase 1.5 与 Phase 1 时序 | 串行 / 后半程并行 / 完全并行 | 已确定(后半程并行) | 产品 | | D-031 | Phase 2 主目标冻结范围 | 多方案 | 已确定(配置化禁改+多版本管理) | 产品 | | D-032 | 当前版本执行优先级 | 全路线并推 / 先P1~P1.5后续暂缓 | 已确定(先P1~P1.5后续暂缓) | 产品 | --- ## 14. 章节讨论记录(按“讨论一章、定一章”推进) ### 记录模板 - 讨论章节: - 结论: - 未决问题: - 下一步动作: - 更新时间: ### 已讨论记录 - 讨论章节:第 1 章 业务背景与问题定义 - 结论:采用“双模式策略”(默认中位最佳实践 + 偏好优先偏移);读工具按“广覆盖+区间指标”设计;自动优化轮次上限暂定 60。 - 未决问题:时长目标与是否默认开启深度思考的策略未冻结。 - 下一步动作:进入第 2 章,冻结“满意方案”与目标优先级定义。 - 更新时间:2026-04-24 - 讨论章节:第 2 章 产品目标与非目标 - 结论:目标优先级确定为 A(自主迭代收敛)> B(可解释与改进证据)> C(对话内任务类共创草案);首发先保 A+B 闭环,C 走可用版。 - 未决问题:C 可用版的覆盖范围与补全字段边界待在第 8 章细化。 - 下一步动作:进入第 3 章,明确首发用户分层与高频场景清单。 - 更新时间:2026-04-24 - 讨论章节:第 3 章补充议题 WebSearch 任务类共创 - 结论:定位为“对话内触发、产出完整任务类草案”的增强能力;知识来源为 WebSearch 通用信息 + 用户偏好,冲突时用户优先;字段按关键/普通分级确认。 - 未决问题:关键字段名单与普通字段名单待在后续章节细化。 - 下一步动作:在第 8 章与第 12 章细化能力边界与分期。 - 更新时间:2026-04-24 - 讨论章节:第 3 章阈值口径补充(S1/S2) - 结论:S1 采用“关键字段修改率<=30%”作为小幅修改阈值;S2 采用“至少一个核心问题域严重度下降”作为有效改进最小标准。 - 未决问题:关键字段清单与核心问题域枚举待后续章节细化。 - 下一步动作:推进第 4 章核心体验原则,固化“单轮单问题域 + 复盘判定”。 - 更新时间:2026-04-24 - 讨论章节:第 3 章 用户与场景(v1.0) - 结论:用户分层、首发场景、场景优先级、暂不支持边界、S1/S2/S3 判定口径均已形成可冻结版本。 - 未决问题:无(本章内容进入后续引用阶段)。 - 下一步动作:推进第 4 章,明确“单轮策略、复盘规范、停机确认”的执行口径。 - 更新时间:2026-04-24 - 讨论章节:第 4 章 核心体验原则(v0.1 草案) - 结论:已形成“总纲-单轮规范-复盘规范-停机原则”的完整草案结构。 - 未决问题:D-007(用户强制覆盖策略)与 D-008(强制确认触发条件)待拍板。 - 下一步动作:根据 D-007/D-008 决策冻结第 4 章。 - 更新时间:2026-04-24 - 讨论章节:第 4 章 核心体验原则(v1.0) - 结论:支持用户强制覆盖单轮主问题域;涉及移动类改动默认确认,用户开启“始终同意”后可自动通过并保留追溯记录。 - 未决问题:无(本章已冻结)。 - 下一步动作:进入第 5 章,细化主动优化流程与收口判定口径。 - 更新时间:2026-04-24 - 讨论章节:第 5 章 主动优化产品流程(v1.0) - 结论:明确了“轮次定义、首轮强制体检、单轮执行闭环、连续无效3轮收口、critical=0且warning<=1收口、用户改目标即重开入场判定”。 - 未决问题:无(本章已冻结)。 - 下一步动作:进入第 6 章,细化科学安排原则与冲突优先级口径。 - 更新时间:2026-04-24 - 讨论章节:第 6 章 科学安排原则(v1.0) - 结论:优先级确定为“硬约束 > 截止压力 > 用户偏好 > 负载 > 切换 > 容错”;冲突裁决采用分层规则;“容错”作为统一用户解释术语。 - 未决问题:无(本章已冻结)。 - 下一步动作:进入第 7 章,细化偏好模型与关键字段清单。 - 更新时间:2026-04-24 - 讨论章节:第 7 章 用户需求与偏好模型(v1.0) - 结论:偏好采集由 memory 负责,产品层仅消费;必要点缺失必须 ask_user;关键/普通字段分级与“时间窗”统一口径已确定。 - 未决问题:无(本章已冻结)。 - 下一步动作:进入第 8 章,细化工具能力蓝图与工具边界。 - 更新时间:2026-04-24 - 讨论章节:第 8 章补充议题(首次全流程 vs 后续局部执行) - 结论:首次主动排课默认全流程;后续局部请求默认旧工具链;仅在授权或命中指标域诉求时升级分析链路。 - 未决问题:`analyze_health` 是否固定为默认首入口(可跳过)仍待拍板。 - 下一步动作:继续冻结第 8 章细项后推进第 9 章。 - 更新时间:2026-04-24 - 讨论章节:第 8 章 工具能力产品蓝图(v1.0) - 结论:`analyze_health` 仅在首次编排或明确触发全流程时默认首入口;分析工具默认 `summary`,按需切换 `full`。 - 未决问题:无(本章已冻结)。 - 下一步动作:进入第 9 章,细化对话内体验文案与解释字段规范。 - 更新时间:2026-04-24 - 讨论章节:第 9 章 关键体验与交互要求(v0.1 草案) - 结论:已形成“双模式体验 + 单轮三段式解释 + 最小解释字段 + 用户控制边界 + 共创体验”的完整草案。 - 未决问题:D-020(默认解释风格)、D-021(最小必显字段数量)、D-022(局部模式固定边界提示)待拍板。 - 下一步动作:完成 D-020~D-022 拍板后冻结第 9 章,进入第 10 章风险与治理。 - 更新时间:2026-04-24 - 讨论章节:第 9 章 关键体验与交互要求(v1.0) - 结论:解释风格定为“专业结论+通俗补充”;最小必显字段固定 3 项;局部模式边界提示改为按需提示;第 9 章冻结。 - 未决问题:无(本章已冻结)。 - 下一步动作:进入第 10 章,讨论风险、边界与治理策略。 - 更新时间:2026-04-24 - 讨论章节:第 10 章 风险、边界与治理(v0.1 草案) - 结论:已形成“风险分层 + 过程治理 + 强制确认分级 + 禁改清单 + 回退追溯”的完整草案结构。 - 未决问题:D-023(强制确认范围)、D-024(禁改清单首发形态)、D-025(回退能力最低要求)待拍板。 - 下一步动作:完成 D-023~D-025 拍板后冻结第 10 章,进入第 11 章指标与验收。 - 更新时间:2026-04-24 - 讨论章节:第 10 章 风险、边界与治理(v1.0) - 结论:强制确认范围定为 A/B/C 全硬规则;首发支持对话内轻量禁改清单;回退最低要求定为“最近一轮”,多版本管理纳入 P2;第 10 章冻结。 - 未决问题:无(本章已冻结)。 - 下一步动作:进入第 11 章,讨论目标指标与验收标准。 - 更新时间:2026-04-24 - 讨论章节:第 11 章 目标指标与验收标准(v0.1 草案) - 结论:已形成“首发三核心指标 + 关键口径定义 + 验收窗口规则”的完整草案结构。 - 未决问题:D-026(核心指标组合)、D-027(有效轮次口径)、D-028(首发目标值)待拍板。 - 下一步动作:完成 D-026~D-028 拍板后冻结第 11 章,进入第 12 章分期路线图。 - 更新时间:2026-04-24 - 讨论章节:第 11 章 目标指标与验收标准(v1.0) - 结论:首发核心指标冻结为“收口率+有效轮次占比+无效回摆率”;有效轮次口径冻结为“问题域下降且不新增critical”;目标值冻结为“70% / 50% / 15%”;第 11 章冻结。 - 未决问题:无(本章已冻结)。 - 下一步动作:进入第 12 章,讨论分期路线图与每期冻结范围。 - 更新时间:2026-04-24 - 讨论章节:第 12 章 分期路线图(v0.1 草案) - 结论:已形成“分期总览 + 每期明确不做 + 出场标准 + 跨期依赖”的执行导向草案。 - 未决问题:D-029(Phase 1出场标准窗口数)、D-030(Phase 1.5与Phase 1时序)、D-031(Phase 2主目标冻结范围)待拍板。 - 下一步动作:完成 D-029~D-031 拍板后冻结第 12 章。 - 更新时间:2026-04-24 - 讨论章节:第 12 章 分期路线图(v1.0) - 结论:Phase 1 出场标准定为连续2窗口达标;Phase 1.5 采用后半程并行;Phase 2 主目标冻结为“配置化禁改+多版本管理”;当前执行优先级定为先跑通 P1~P1.5、后续阶段暂缓;第 12 章冻结。 - 未决问题:无(本章已冻结)。 - 下一步动作:进入收尾阶段,统一检查决策表与章节状态一致性。 - 更新时间:2026-04-24 --- ## 15. 术语表(持续补充) | 术语 | 业务定义 | |---|---| | 主动优化 | AI 连续观测-调整-复盘-收口的优化过程 | | 收口 | 达到阈值后停止迭代并输出最终方案 | | 主问题域 | 单轮优化聚焦的首要问题类型 |