后端: 1. 新增课表图片识别接口,支持上传截图后返回“可编辑草稿”(success / partial / reject),并补齐大图、空图、格式不支持、识别能力未配置等错误分支。 2. 课表识别服务接入多模态 Responses 链路,完善图片请求归一化与安全校验(大小、MIME、内容探测),并对识别结果做结构化清洗、强/弱约束校验、告警去重与默认文案兜底。 3. 新增 Ark Responses 统一客户端抽象,支持文本+图片输入、JSON对象输出、usage统计透传与不完整输出识别;同时补齐模型返回 finish_reason 透传,便于定位截断问题。 4. 启动阶段增加课表识图模型与参数注入(模型名、最大图片字节、最大输出token),并将配置示例收敛为“仅保留当前代码实际读取项”。 前端: 5. 课表中心新增“导入课表”完整闭环:上传图片识别、草稿编辑校对、正式导入落库;并新增对应 API 与类型定义。 6. 导入弹窗支持识别中止、全局告警与行级告警展示、低置信度提示、行内编辑、手动新增、删除、拖拽排序、本地校验与提交前二次确认。 7. 正式导入前将草稿按“课程名+地点+是否允许嵌入”聚合为导入结构,并统一携带幂等键请求头,降低重复提交风险。 8. 周课表画板修复跨节次事件遮挡导致的网格错位问题,改进“完全遮挡/部分遮挡”渲染判定与 grid 行定位。 9. 助手流式区域优化“思考中”指示逻辑与样式,避免已有正文时仍展示回答中占位;同时补充全局组件视觉统一(弹窗/按钮)样式。 仓库: 10. 新增课表图片识别前端对接说明文档,补充主动优化能力 PRD 讨论稿,并在协作规范中新增“实现 Eino 新能力前需先查官方文档”的约束。
46 KiB
46 KiB
SmartFlow 主动优化功能 PRD(讨论版)
0. 文档信息
- 文档状态:讨论中(骨架版)
- 适用范围:主动优化(对话内 execute + 对话内任务类共创)
- 文档目的:先对齐产品方向,再指导后续实现
- 约束说明:本 PRD 只谈产品,不谈技术实现
1. 业务背景与问题定义(已讨论 v0.1)
1.1 当前用户问题
- 用户并不总会明确表达需求,存在两类典型入口:
- 默认入口:用户未明确偏好,只希望“尽快排好任务类”。
- 偏好入口:用户给出较多约束与倾向(强度、时段、节奏、容错等)。
- 现状容易把优化做成“单点最佳实践”或“一次性建议”,缺少可持续迭代与偏好对齐。
- 因此,工具体系必须同时支持:
- 在信息不足时,按科学界公认最佳实践给出稳健中位方案。
- 在用户偏好明确时,优先按用户需求调参,不盲从默认最佳实践。
1.2 核心问题陈述
- 我们要解决的问题是:
如何让 AI 在“科学最佳实践”和“用户个性化需求”之间做可解释、可调节、可收敛的主动优化。 - 该问题直接决定工具设计方向:
- 读工具覆盖面必须足够广,能够支撑不同偏好下的判断。
- 每个核心指标必须是“区间型”而不是“单点型”:
- 默认站在中位(平衡值)。
- 能向左/向右偏移,对应不同用户诉求。
1.3 本章已确定结论
- 首发主用户策略:
- 若用户需求不提或较弱,系统默认采用中位最佳实践快速生成。
- 若用户需求明确且较多,系统优先满足用户需求,科学原则作为安全边界。
- “满意方案”判定口径(本章层面):
- 本质不是固定模板,而是“在用户诉求方向上的可接受平衡点”。
- 默认用户采用中位平衡;偏好用户采用定向偏移平衡。
- 自动优化容忍边界(当前已定项):
- 轮次上限暂定 60 轮。
- 时长与是否开启深度思考的权衡暂不在本章冻结,后续章节决策。
1.4 对后续章节的约束
- 第 6 章(科学原则)必须给出“中位默认 + 双向偏移”的可解释规则。
- 第 8 章(工具蓝图)必须体现“覆盖广度 + 区间刻度”的产品能力。
- 第 11 章(指标验收)必须衡量“默认模式质量”与“偏好对齐质量”两条线。
2. 产品目标与非目标(已讨论 v0.1)
2.1 产品目标定义与优先级(已定)
- 目标 A(最高优先级):自主迭代收敛
- 定义:AI 以“观测-调整-复盘”循环持续优化,直到达到可接受方案再收口。
- 用户价值:减少用户逐步指挥成本,体现“主动出击”。
- 目标 B(第二优先级):可解释且有改进证据
- 定义:每轮调整都要给出“为何调整、调整内容、前后差异”。
- 用户价值:可控、可信,避免“黑箱瞎调”。
- 目标 C(第三优先级):对话内任务类共创草案
- 定义:用户在聊天中触发后,AI 通过反问与检索产出完整任务类草案。
- 用户价值:降低冷启动门槛,减少配置负担,避免新增第二交互区。
- 优先级结论:
A > B > C。
2.2 阶段目标策略(已定)
- 首发必须保证:A 与 B 构成闭环能力。
- 首发可落可迭代:C 以“可用版”上线,后续逐步提高草案准确率与覆盖深度。
- 取舍原则:若资源冲突,优先保障 A;若 A 满足基本可用,再保障 B;C 按剩余资源推进。
2.3 非目标(已定)
- 不追求一次优化即全局最优,目标是“可收敛的高质量可接受方案”。
- 不追求首发覆盖全部学习风格与全部人群偏好。
- 不追求在高风险场景下完全替代用户决策。
- 不以“工具数量”作为目标,避免能力堆叠但无法形成闭环价值。
2.4 本章已确定结论
- 我们的核心差异化能力是 A(主动迭代优化),不是一次性建议或单轮算法执行。
- B 是 A 的信任保障,必须同步建设,不能后补。
- C 是重要入口能力,但在首发阶段不应挤占 A/B 的闭环建设资源。
2.5 对后续章节的约束
- 第 5 章(主动优化流程)必须完整体现 A 的循环收敛机制。
- 第 9 章(交互要求)必须体现 B 的解释与改进证据结构。
- 第 12 章(分期路线图)必须以
A > B > C排序规划交付。
3. 用户与场景(已讨论 v1.0)
3.1 目标用户分层(已形成草案)
| 用户分层 | 典型特征 | 当前痛点 | 价值诉求 | 首发优先级 |
|---|---|---|---|---|
| 极速排程型 | 不想多聊,希望尽快出方案 | 参数配置成本高、上手慢 | 一键可用、少改动 | P1 |
| 偏好驱动型 | 明确表达强度/时段/节奏偏好 | 通用最佳实践不一定贴合个人需求 | 结果沿偏好方向明显偏移、可控可解释 | P0(首发主优先) |
| 反复调优型 | 接受多轮优化,关注持续变好 | 容易遇到来回调整、无效微调 | 稳定收敛、每轮有改进证据 | P1 |
3.2 首发核心场景清单(已形成草案)
| 场景 | 触发方式 | 用户期望 | 成功标准 |
|---|---|---|---|
| 场景 S1:对话内任务类共创草案 | 用户在聊天中提出“帮我设计任务类” | 快速得到完整且可确认的任务类草案 | 用户可直接采纳或仅小幅修改后采纳 |
| 场景 S2:对话内“帮我优化一下” | 用户在对话中发起优化请求 | AI 主动多轮调整并收口 | 至少完成 1-2 轮有效改进且最终可交付 |
| 场景 S3:对话内“按我的偏好重排” | 用户明确给出偏好/约束 | AI 优先满足偏好,不盲从默认最佳实践 | 结果明显朝偏好方向偏移且不破坏硬约束 |
3.3 场景优先策略(已形成草案)
- 首发优先主线:偏好驱动型(P0)。
- 原因:该人群最能体现本功能差异化价值,即“可调节的主动优化”,而非一次性默认排程。
- 策略要求:所有首发核心场景都必须支持“默认中位 + 偏好偏移”双模式。
3.4 暂不支持场景清单(草案)
| 暂不支持场景 | 暂缓原因 | 后续进入条件 |
|---|---|---|
| 跨超长周期(如整学期/跨学期)全局最优规划 | 目标跨度过大,首发优先保证局部收敛质量 | 收敛稳定性和性能目标达标后再纳入 |
| 多主体联合排程(多人协同/冲突协商) | 交互复杂度高,超出首发边界 | 单人场景成熟后评估 |
| 高风险不可逆决策自动执行 | 需要更强确认链路与责任边界 | 风险治理机制完善后评估 |
3.5 本章已确定的判定阈值口径
- S1(任务类共创草案“小幅修改”阈值):
- 定义:关键字段修改率 <= 30% 视为“小幅修改”。
- 用途:衡量草案可用性与采纳质量(用于产品验收,不作为用户前台提示)。
- S2(主动优化“有效改进”最小标准):
- 定义:至少一个核心问题域的严重度下降,视为“有效改进”。
- 严重度层级:
critical > warning > info。 - 用途:判断单轮优化是否有实质收益,避免无效循环。
- S3(偏好冲突裁决规则):
- 定义:用户偏好优先,科学原则兜底。
- 用途:在“通用最佳实践 vs 用户个性化需求”冲突时,给出统一裁决路径。
3.6 新增场景候选:对话内任务类共创(WebSearch 增强)
3.6.1 场景定义(已讨论结论)
- 场景目标:由 AI 在对话中产出“完整任务类草案”,而非仅补全单个参数。
- 触发方式:仅支持聊天触发,不新增聊天外按钮入口。
- 原因:该能力需要多轮反问与澄清,若放在聊天外容易形成“第二对话区”,增加认知负担。
3.6.2 信息来源优先级(已讨论结论)
- WebSearch 负责:补充通用知识(如课程信息、学习路径共识、考试结构常识)。
- 用户输入负责:表达个人偏好与约束(强度、时段、节奏、目标侧重)。
- 冲突处理:用户偏好优先,通用知识仅作参考与兜底。
3.6.3 字段确认策略(已讨论结论)
- 关键字段:必须用户确认后落库。
- 普通字段:允许静默落库,并在结果摘要中可追溯展示。
3.6.4 成功标准(草案)
- 草案采纳率(用户直接采纳完整草案的比例)。
- 草案修改率(用户修改后采纳的比例)。
- 后续优化收敛效率(基于该草案进入主动优化后的平均有效轮次变化)。
4. 核心体验原则(已讨论 v1.0)
4.1 体验总纲(草案)
- 原则 1:先看全局,再做局部。
- 先识别主要矛盾,再执行局部调整,避免“盲调”。
- 原则 2:单轮单主问题域。
- 每轮只聚焦一个主问题域,降低震荡与来回改动。
- 原则 3:每轮必须复盘并判定有效性。
- 任何调整都要有“是否变好”的结论,不允许无结论进入下一轮。
- 原则 4:达标即收口。
- 达到可接受阈值后立即停止,避免过度优化。
- 原则 5:偏好优先、科学兜底。
- 用户偏好是目标方向,科学原则提供安全边界。
- 原则 6:硬约束优先于体验优化。
- 先保证不违约束,再追求负载/节奏/切换等体验改进。
4.2 单轮优化行为规范(草案)
- 规范 A:本轮开始前必须声明“主问题域 + 目标变化”。
- 规范 B:单轮仅允许一个主问题域,允许附带次问题观察但不展开动作。
- 规范 C:同一主问题域若尚未出现有效改进,不应频繁切换到其他问题域。
- 规范 D:若用户明确指定优化方向,优先采用用户方向作为本轮主问题域。
4.3 单轮复盘输出规范(草案)
- 每轮都应给出三段式结果:
- 本轮目标:本轮要改善什么。
- 本轮改动:改了哪些关键位置。
- 本轮结果:哪些指标或问题严重度发生了变化。
- 单轮判定结果仅允许两类:
有效改进:至少一个核心问题域严重度下降。无效改进:无严重度下降,需换策略或收口。
4.4 收口与停机原则(已定)
- 正常收口条件:
- 达到可接受方案阈值;
- 或主要问题已降至可接受等级。
- 防循环停机条件:
- 连续多轮无有效改进;
- 或达到轮次上限(当前上限 60)。
- 强制人工确认规则(已定):
- 只要涉及“移动类改动”,默认都需用户确认后执行。
- 仅当用户显式开启“始终同意”时,允许自动通过确认。
- 即使自动通过,也需在结果中保留可追溯记录。
4.5 本章已确定结论
- Q4-1 结论:支持用户强制覆盖单轮主问题域。
- 说明:前端已支持用户自由拖动,该能力与产品原则一致。
- Q4-2 结论:采用“移动必确认,始终同意可自动通过”的统一规则。
- 说明:确认链路以用户控制权优先,兼顾效率模式。
5. 主动优化产品流程(已讨论 v1.0)
5.0 模式切换策略(补充,已定)
- 首次主动排课(粗排 + 主动微调)默认启用全流程模式。
- 后续局部调整请求默认启用局部执行模式(优先旧工具链)。
- 仅在以下情况升级为全流程模式:
- 用户明确授权“重新全局优化”;
- 用户诉求明确命中指标域(如切换过多、太满、容错不足等)。
5.1 流程总览(已定)
- 入场判定:确定本次优化模式(默认中位 / 偏好驱动)、目标窗口、可改动范围。
- 首轮体检:强制先体检,再进入改动(避免盲调)。
- 迭代优化:按“单轮主问题域”执行改动与复盘。
- 收口判定:达标即收口;未达标则继续循环。
- 异常处理:冲突、失败、用户改目标时按规则回退或重开。
- 结果交付:输出改动摘要、改进证据、剩余风险与下一步建议。
5.2 轮次定义(已定)
- “1 轮优化”定义为一次完整闭环:
- 选定主问题域;
- 生成本轮改动方案;
- 通过确认门禁;
- 执行改动;
- 复盘并判定有效/无效。
- 说明:
- 仅观察不改动,不计入优化轮。
- “连续无效轮次”仅统计“已执行改动但未出现有效改进”的轮。
5.3 详细流程规则(已定)
5.3.1 入场判定
- 输入:用户目标、偏好、限制、当前日程状态。
- 输出:本次优化上下文(模式、范围、约束、初始问题池)。
- 规则:若用户目标不明确,默认按中位最佳实践入场。
- 规则补充:
- 局部执行模式可跳过全流程体检,直接做最小必要校验后执行。
- 全流程模式必须先体检再改动。
5.3.2 首轮体检(强制)
- 必须先完成体检再改动。
- 体检结果至少包含:问题清单、严重度排序、建议主问题域。
- 禁止跳过体检直接执行改动。
5.3.3 单轮优化执行
- 每轮必须先声明:本轮主问题域与目标变化。
- 本轮仅允许一个主问题域,避免并发多目标拉扯。
- 涉及移动类改动:
- 默认需用户确认;
- 用户开启“始终同意”后可自动通过;
- 自动通过仍需可追溯记录。
5.3.4 单轮复盘判定
- 有效改进标准:至少一个核心问题域严重度下降。
- 无效改进标准:执行改动后无严重度下降。
- 无效轮次处置:允许换策略继续,但需计入连续无效轮次计数。
5.4 收口规则(已定)
- 正常收口阈值:
critical = 0;warning <= 1。
- 防循环强制收口:
- 连续无效轮次 >= 3;
- 或达到总轮次上限(当前 60 轮)。
- 收口后必须输出:已解决问题、未解决问题、建议后续动作。
5.5 用户中途改目标处理(已定)
- 当用户在优化过程中明确变更目标/偏好时:
- 立即重开“入场判定”;
- 清空当前主问题域上下文;
- 基于新目标重新体检并进入下一轮。
- 目的:避免沿旧目标继续优化导致结果跑偏。
5.6 本章已确定结论
- 首轮体检强制执行。
- 可接受阈值采用
critical=0 且 warning<=1。 - 连续无效 3 轮即强制收口。
- 用户中途改目标时,必须重开入场判定。
- 首次主动排课默认全流程;后续局部调整默认旧工具链。
6. 科学安排原则(已讨论 v1.0)
6.1 原则优先级(已定)
按“上位约束可否决下位偏好”的顺序执行:
- 硬约束合法性(不可冲突、不可越界、不可违规改动)
- 截止与时间压力(先保证不发生明显延期风险)
- 用户偏好方向(在上位约束允许范围内优先满足)
- 负载均衡(避免极端堆积与突增)
- 认知切换(控制高频切换与过长连续块)
- 容错能力(可用空窗规模,平衡稳定性与利用率)
6.2 冲突裁决规则(已定)
| 冲突场景 | 裁决规则 | 用户可覆盖性 |
|---|---|---|
| 用户偏好 vs 硬约束合法性 | 硬约束优先,拒绝违规方案并给替代建议 | 不可覆盖 |
| 用户偏好 vs 截止/时间压力红线 | 截止压力优先,默认前移高风险任务 | 可显式确认后覆盖部分策略 |
| 用户偏好 vs 下位优化项(负载/切换/容错) | 用户偏好优先,科学原则兜底 | 可覆盖 |
| 无明确用户偏好 | 采用中位最佳实践 | 不适用 |
6.3 原则刻度化口径(中位默认 + 双向偏移)
| 原则维度 | 中位默认 | 左偏 | 右偏 |
|---|---|---|---|
| 负载强度 | 平衡推进 | 低强度(更松) | 冲刺强度(更满) |
| 截止推进 | 均衡前移 | 早缓冲(更早完成) | 临近冲刺(更晚推进) |
| 认知切换 | 适度切换 | 低切换(同类聚合) | 高切换(灵活穿插) |
| 容错能力 | 平衡容错 | 高容错(多留大空窗) | 低容错(任务排得更满) |
6.4 软硬约束分层(已定)
- 硬约束:
- 合法性约束(冲突、越界、禁止改动范围)
- 截止/时间压力红线
- 软约束:
- 负载均衡
- 认知切换
- 容错能力
- 执行原则:
- 先满足硬约束,再在软约束内做偏好优化。
6.5 本章已确定结论
- 科学原则优先级已固定为“硬约束与截止优先,偏好次之,其余体验项随后优化”。
- 冲突裁决已固定为“分层裁决”:不可覆盖项直接否决,可覆盖项通过显式确认处理。
- “容错”作为用户可理解维度,已替代“空窗/缓冲”作为统一外显术语。
7. 用户需求与偏好模型(已讨论 v1.0)
7.1 边界定义(已定)
- 本章只定义“偏好消费与确认规则”,不定义“偏好采集机制”。
- 偏好采集由 memory 系统负责:
- 持续采集;
- 去重注入;
- 产品层直接消费。
7.2 偏好消费优先级(已定)
- 用户显式输入(最高优先级)
- memory 注入偏好(次优先)
- WebSearch 通用知识(仅补全,不可覆盖用户偏好)
- 无信息时采用中位默认值
7.3 必要点判定与 ask_user 规则(已定)
- 必要点定义:缺失会导致方案不可执行或高风险误判的关键信息。
- 必要点缺失时:必须 ask_user,不允许静默推断。
- 当前必要点清单:
- 时间窗(至少明确 end,start 可按策略补齐);
- 强度方向(均匀/冲刺);
- 容错偏好(高容错/平衡/低容错);
- 禁排时段(若用户表达了禁忌但未结构化)。
7.4 字段分级(已定)
7.4.1 关键字段(必须确认)
- 时间窗(start/end,截止时间统一归入 end,不单列重复字段)
- 强度策略(均匀/冲刺)
- 总预算(total_slots)
- 容错偏好(高容错/平衡/低容错)
- 禁排时段(excluded_slots)
- 任务项清单完整性(是否齐全)
- 任务项优先级/依赖关系(如用户提供)
7.4.2 普通字段(可静默落)
- 推荐时段偏好权重(上午/下午/晚间)
- 同类任务聚合偏好(聚合/平衡/穿插)
- 阶段里程碑拆分建议
- 标准化知识标签与学习路径备注(命中统一标准时结构化落地;未命中仅文本备注)
7.5 口径修正(已定)
- 不在偏好层管理“单次学习块长度”:
- 该项属于任务类/任务项结构属性,不作为本章普通偏好字段。
- 统一命名“时间窗”:
- “截止时间”视为时间窗 end 的口语表达,不单列独立字段。
7.6 本章已确定结论
- 偏好由 memory 采集,产品层只做消费与确认。
- 必要点缺失必须 ask_user,避免静默误判。
- 字段分级与统一命名口径已固定,可直接指导后续工具设计与交互文案。
8. 工具能力产品蓝图(已讨论 v1.0)
8.1 工具分层(产品视角)
- 事实读取层:告诉 AI“现在是什么”
- 分析体检层:告诉 AI“问题在哪”
- 评估复盘层:告诉 AI“这轮是否变好”
- 执行动作层:让 AI 进行可控调整(以旧工具链为主)
8.2 混合工具策略(新增)
- 策略 1:旧工具保留为主执行层,不做全线替换。
- 策略 2:新分析工具作为导航层,主要用于首次主动排课与指标域重优化。
- 策略 3:局部请求默认旧工具直达执行,避免过度主动出击。
- 策略 4:仅在用户授权或命中指标域诉求时,升级为分析链路。
8.3 对话内能力(草案)
| 能力 | 适用模式 | 用户价值 | AI 产出 | 风险控制 |
|---|---|---|---|---|
| analyze_health(总览体检) | 首次编排/明确触发全流程时默认首入口(可跳过) | 快速定位主要问题 | metrics/issues/next_actions | 防盲钻、防误判 |
| analyze_load | 全流程模式/指标域触发 | 识别过载与波动 | 负载证据 + 动作建议 | 防局部最优 |
| analyze_subjects | 全流程模式/指标域触发 | 识别科目节奏与预算压力 | 分布证据 + 动作建议 | 防断档 |
| analyze_context | 全流程模式/指标域触发 | 识别切换过高与碎片化 | 切换证据 + 动作建议 | 防认知疲劳 |
| analyze_tolerance | 全流程模式/指标域触发 | 识别容错不足风险 | 容错证据 + 动作建议 | 防计划脆弱 |
| build_task_class_draft(WebSearch增强) | 共创模式 | 从 0 到 1 生成可用任务类草案 | 完整任务类草案 + 关键字段确认请求 | 防知识幻觉、防越权落库 |
8.4 分析工具输出结构规范(草案)
- 分析工具统一返回三段:
metrics:测量值;issues:问题及严重度(critical/warning/info);next_actions:下一步建议(只建议,不自动执行)。
- 细节级别:
- 默认
summary; - 用户追问或需要取证时使用
full。
- 默认
8.5 WebSearch 共创能力边界(新增)
- 本能力定位:对话内共创,不替代主动优化主线。
- 输出形态:完整任务类草案,不是单字段建议。
- 决策边界:用户偏好优先于通用知识。
- 安全边界:关键字段需确认,普通字段可静默落并可追溯。
8.6 本章已确定结论
analyze_health仅在“首次编排”或“用户明确触发全流程”时作为默认首入口(可跳过)。- 分析工具默认明细级别统一为
summary,用户追问或需取证时切换full。
9. 关键体验与交互要求(已讨论 v1.0)
9.1 本章定位(已对齐)
- 本章只定义“用户看到什么、怎么被解释、何时需要确认”。
- 不定义算法细节、不定义工具内部实现。
- 目标是让主动优化“有方向、可理解、不过度”。
9.2 双模式对话体验(已对齐)
- 首次编排/明确触发全流程时:进入“体检 + 迭代优化”模式,先给全局判断,再给单轮改进。
- 后续局部请求时:默认走旧工具的局部执行链,不擅自升级为全流程。
- 仅在两类条件下可升级全流程:用户明确授权;用户诉求明确命中指标域(如“切换太多”“太满了”)。
9.3 单轮解释三段式(已定)
- 观察段:本轮先说“我看到了什么问题”,并给最小证据(指标或现象)。
- 动作段:再说“我准备怎么改、为什么这么改”,同时点明遵循了哪条科学原则与用户偏好。
- 结果段:最后说“改完发生了什么变化”,并给下一步建议(继续微调或收口)。
- 三段式的意义:让用户始终知道“问题-动作-结果”的闭环,避免 AI 黑箱式挪动。
9.4 解释字段最小集合(已定)
- 字段1(必显):本轮主问题域(负载/切换/截止/容错/科目分布等)。
- 字段2(必显):本轮改动摘要(改了哪些任务、从哪到哪、影响了哪几天)。
- 字段3(必显):改动理由(科学原则 + 用户偏好 + 冲突裁决依据)。
- 字段4(建议显):前后对比(至少 1 个核心指标变化)。
- 字段5(建议显):副作用提示(例如“容错下降”“切换略增”)。
- 字段6(建议显):下一步建议(继续某方向微调,或建议收口)。
- 默认规则:最少展示前 3 字段;全流程场景建议展示 1-6 字段。
9.5 用户控制与确认边界(已对齐)
- 涉及“移动类改动”默认都要确认;若用户已开启“始终同意”,可自动通过但需可追溯。
- 用户可自由手动拖动,系统应尊重手动结果,不反向强改。
- 用户可随时改目标;改目标后按既定规则重开入场判定。
- AI 可主动给建议,但不能越权执行超出用户授权范围的改动。
9.6 对话内任务类共创体验(已对齐)
- 仅聊天触发,不做聊天外按钮触发。
- 输出形态为“完整任务类草案”,而非零散参数建议。
- 关键字段必须确认;普通字段可静默落并保留可追溯记录。
- 用户偏好与 Web 通用知识冲突时,用户偏好优先。
9.7 本章已确定结论
- 默认解释风格采用“专业结论 + 通俗补充”双层表达。
- 最小必显字段固定为 3 项:主问题域、改动摘要、改动理由。
- 局部模式下不强制固定边界提示,是否提示由上下文按需决定。
10. 风险、边界与治理(已讨论 v1.0)
10.1 风险分层(产品视角)
- R1 收敛风险:LLM 长时间小步试探但无实质改进,造成轮次浪费。
- R2 体验风险:指标看起来改善,但用户主观体感变差(例如更累、更碎)。
- R3 越权风险:AI 在未充分授权下做了超出预期范围的改动。
- R4 可信风险:解释与真实改动不一致,导致用户不信任系统。
- R5 数据风险:关键信息缺失/冲突,导致判断前提不成立却仍继续优化。
10.2 产品边界(已对齐)
- 边界1:全流程优化默认仅用于首次编排或用户明确触发,后续局部请求默认局部执行。
- 边界2:涉及移动类改动默认确认;用户开启“始终同意”后可自动通过,但需保留追溯。
- 边界3:用户手动拖动结果优先,AI 不得反向强改。
- 边界4:用户可随时改目标;改目标后立即重开入场判定。
- 边界5:用户偏好与通用知识冲突时,用户偏好优先。
10.3 治理机制(过程治理)
- 入场治理:先判定是“全流程模式”还是“局部模式”;必要信息缺失必须 ask_user,不允许静默猜测。
- 轮中治理:坚持单轮单主问题域;每轮都输出“观察-动作-结果”,并判断是否有效改进。
- 收口治理:命中
critical=0 且 warning<=1立即收口;连续无效 3 轮或达到轮次上限强制收口。 - 出口治理:收口时必须显式说明“当前残留问题 + 可选后续动作”,避免用户误以为已全局最优。
10.4 强制确认清单(已定)
- A类(必须确认):任何会导致任务/课程位置变化的移动类改动(已拍板规则)。
- B类(必须确认):会改变用户明确声明偏好的改动(如偏好时段、偏好节奏)。
- C类(必须确认):一次影响多个日期的大范围联动调整(避免“无感大改”)。
- 说明:A/B/C 三类均为硬规则;若用户开启“始终同意”,可自动通过但须完整追溯。
10.5 “禁止 AI 改动清单”能力(已定)
- 能力定义:用户可声明一组“不可被 AI 主动改动”的对象或范围(例如某类固定课程/某些日期)。
- 产品意义:降低越权风险,提升高控制型用户的信任感。
- 首发口径:支持“对话内声明即生效”的轻量禁改语义;通过现有上下文注入链路生效,本期不新增 agent 侧治理改动。
- 后续演进:配置化、持久化禁改清单能力纳入后续阶段评估。
10.6 可追溯与回退要求(已定)
- 每轮必须可追溯:至少记录主问题域、改动摘要、改动理由、影响范围、确认来源。
- 对“已执行改动”应支持最小粒度回退能力,避免用户对试错型优化产生风险焦虑。
- 回退后应触发一次简版复盘,避免回退导致隐性冲突未被感知。
- 首发最低要求:至少支持“回退最近一轮已执行改动”;多版本日程管理(多轮历史回退)纳入 P2。
10.7 本章已确定结论
- 强制确认范围升级为 A/B/C 三类全部硬规则。
- 首发纳入“禁止 AI 改动清单(对话内轻量版)”。
- 回退能力首发最低要求为“回退最近一轮”,多版本管理纳入 P2。
11. 目标指标与验收标准(已讨论 v1.0)
11.1 指标设计原则(已对齐)
- 原则1:指标必须服务于“首次编排全流程”主场景,不用局部请求噪声稀释判断。
- 原则2:指标必须同时覆盖“结果好不好、过程稳不稳、体验可不可信”三层。
- 原则3:指标必须可落地采集,避免依赖大量主观人工打分。
11.2 首发核心指标(已定)
| 指标层级 | 指标名 | 指标定义(产品口径) | 首发目标 |
|---|---|---|---|
| 结果指标 | 首次编排可接受收口率 | 首次编排全流程中,满足 critical=0 且 warning<=1 并进入收口的会话占比 |
>= 70% |
| 过程指标 | 有效优化轮次占比 | 全流程会话内,“有效轮次”占总轮次比例 | >= 50% |
| 质量指标 | 无效回摆率 | 近两轮内被反向撤回的改动占全部改动比例(衡量“折返跑”) | <= 15% |
11.3 关键口径定义(已定)
- 有效优化轮次:至少满足“一个核心问题域严重度下降”,且不引入新的
critical问题。 - 可接受收口:达到既定收口阈值(
critical=0 且 warning<=1)并完成收口说明。 - 无效回摆:同一任务/课程在短窗口内出现“改过去又改回来”的反向变更。
11.4 辅助观测指标(不作为首发硬门槛)
- 平均收口轮次:成功收口会话平均用了多少轮(用于评估效率,不单独卡上线)。
- 强制确认后撤销率:已确认改动后被用户撤销的比例(用于识别解释质量问题)。
- 对话内追问率:用户对“为什么这么改”继续追问的比例(用于评估解释清晰度)。
11.5 验收规则(已定)
- 验收窗口:按自然周滚动观测,至少连续 2 个观察窗口达标再判定“阶段通过”。
- 达标判定:第 11.2 的 3 个核心指标同时达标。
- 未达标处理:按指标归因回到对应章节优化(流程、工具、解释、确认边界),不允许只调阈值“做数字”。
11.6 本章已确定结论
- 首发核心指标冻结为:可接受收口率 + 有效优化轮次占比 + 无效回摆率。
- “有效优化轮次”口径冻结为:至少一个问题域下降,且不新增
critical。 - 首发目标值冻结为:
>=70% / >=50% / <=15%。
12. 分期路线图(已讨论 v1.0)
12.1 分期原则(执行导向)
- 原则1:先闭环再扩面。先把“首次编排可收敛”做扎实,再扩展高级能力。
- 原则2:每期都有“明确不做”,避免执行期目标漂移。
- 原则3:每期必须有可量化出场标准,未达标不进入下一期主目标。
12.2 分期总览(已定)
| 阶段 | 核心目标 | 必做交付范围(产品) | 明确不做(冻结范围) | 出场标准(产品) |
|---|---|---|---|---|
| Phase 1 | 建立首次编排的主动优化闭环 | 首次编排默认全流程;后续局部默认旧工具;6个分析工具口径落地;A/B/C三类确认规则;最近一轮回退;第11章三核心指标可观测 | 不做多版本日程管理;不做配置化禁改清单;不扩展到聊天外触发 | 连续2个观察窗口达到第11章目标值(70%/50%/15%) |
| Phase 1.5 | 建立对话内任务类共创可用版 | 聊天触发的完整任务类草案;关键字段确认+普通字段静默落;用户偏好优先于Web通识 | 不做按钮触发;不做全自动无确认落库;不做课程库平台化治理 | 任务类草案一次可用率达到预设阈值(阈值在阶段启动前冻结) |
| Phase 2 | 强化个性化和治理能力 | 配置化禁改清单;多版本日程管理(含多轮回退);解释与确认策略按用户类型分层 | 不做跨终端复杂编排协同;不做完全自治无人值守优化 | 在保持Phase 1核心指标不退化前提下,撤销率与追问率下降 |
| Phase 3 | 平台化与长期稳定性 | 能力模块化复用;跨场景复用统一口径;长期策略调优与治理看板 | 不新增未经验证的大跨度能力域 | 核心指标长期稳定且新增能力不破坏既有闭环 |
12.3 Phase 1 最小可用闭环(MVP)定义(已定)
- 入口:仅“首次编排”自动进入全流程,或用户明确触发全流程。
- 执行:按既定单轮机制运行(观察-动作-结果),并遵守A/B/C确认规则。
- 收口:按既定阈值收口(
critical=0 且 warning<=1;或触发强制收口)。 - 保障:支持最近一轮回退、保留可追溯记录、支持对话内轻量禁改。
- 验收:以第11章三核心指标作为唯一阶段通过标准。
12.4 跨期依赖关系(已定)
- Phase 1 是所有后续阶段前置,未通过则不进入 Phase 2 的主交付。
- Phase 1.5 可与 Phase 1 后段并行推进,但不得影响 Phase 1 指标达标。
- Phase 2 的多版本管理与配置化禁改,依赖 Phase 1 的追溯数据结构稳定。
12.5 本章已确定结论
- Phase 1 出场标准固定为:第11章三核心指标连续 2 个窗口达标。
- Phase 1.5 与 Phase 1 时序固定为:允许后半程并行推进,前提是不影响 Phase 1 指标达标。
- Phase 2 主目标冻结为:配置化禁改清单 + 多版本日程管理。
12.6 当前执行优先级(新增)
- 当前版本优先目标为“先跑通 Phase 1 ~ Phase 1.5”。
- Phase 2 / Phase 3 暂缓,待前两阶段稳定后再回到路线图继续推进。
13. 待决策清单(滚动更新)
| 编号 | 议题 | 决策选项 | 当前状态 | 负责人 |
|---|---|---|---|---|
| D-001 | 对话内主动优化目标优先级 | A>B>C / A=C>B / C>A>B | 已确定(A>B>C) | 产品 |
| D-002 | WebSearch 任务类设计触发形态 | 聊天触发 / 聊天外按钮触发 | 已确定(聊天触发) | 产品 |
| D-003 | WebSearch 与用户偏好冲突策略 | 通用知识优先 / 用户偏好优先 | 已确定(用户偏好优先) | 产品 |
| D-004 | 任务类草案落库确认策略 | 全字段确认 / 关键字段确认+普通字段静默落 | 已确定(后者) | 产品 |
| D-005 | 任务类草案“小幅修改”阈值 | 20% / 30% / 40% | 已确定(30%) | 产品 |
| D-006 | 主动优化“有效改进”最小标准 | 严重度下降 / 分数提升 / 二者同时满足 | 已确定(至少一个问题域严重度下降) | 产品 |
| D-007 | 用户是否可强制覆盖单轮主问题域 | 支持 / 不支持 / 有条件支持 | 已确定(支持) | 产品 |
| D-008 | 强制人工确认触发条件 | 精简2类 / 标准3类 / 扩展4类+ | 已确定(涉及移动默认确认;始终同意可自动通过) | 产品 |
| D-009 | 连续无效轮次强制收口阈值 | 2 / 3 / 4 | 已确定(3) | 产品 |
| D-010 | 可接受方案阈值 | critical=0且warning<=0/1/2 | 已确定(critical=0 且 warning<=1) | 产品 |
| D-011 | 用户中途改目标处理策略 | 延续当前轮 / 下轮生效 / 立即重开入场判定 | 已确定(立即重开入场判定) | 产品 |
| D-012 | 科学原则优先级 | 多种排序方案 | 已确定(硬约束 > 截止压力 > 用户偏好 > 负载 > 切换 > 容错) | 产品 |
| D-013 | 原则冲突裁决口径 | 用户优先 / 科学优先 / 分层裁决 | 已确定(分层裁决) | 产品 |
| D-014 | 偏好模型边界 | 产品层负责采集+消费 / 仅消费不采集 | 已确定(仅消费不采集) | 产品 |
| D-015 | 必要点缺失处理 | 静默推断 / ask_user / 混合策略 | 已确定(必要点缺失必须 ask_user) | 产品 |
| D-016 | 后续局部请求默认模式 | 全流程优先 / 局部执行优先 | 已确定(局部执行优先) | 产品 |
| D-017 | 旧工具与新工具关系 | 全替换 / 并行混合 | 已确定(并行混合,旧工具主执行) | 产品 |
| D-018 | analyze_health 默认入口触发条件 |
全程默认 / 首次与明确触发默认 | 已确定(首次与明确触发默认) | 产品 |
| D-019 | 分析工具默认明细级别 | summary / full | 已确定(summary) | 产品 |
| D-020 | 第九章默认解释风格 | 纯专业 / 纯通俗 / 专业结论+通俗补充 | 已确定(专业结论+通俗补充) | 产品 |
| D-021 | 第九章最小必显字段 | 2项 / 3项 / 4项+ | 已确定(3项) | 产品 |
| D-022 | 局部模式是否固定边界提示 | 固定提示 / 按需提示 | 已确定(按需提示) | 产品 |
| D-023 | 第十章强制确认范围 | 仅A类(移动类)硬规则 / A+B类硬规则 / A+B+C类硬规则 | 已确定(A+B+C类硬规则) | 产品 |
| D-024 | 首发是否支持禁改清单 | 不支持 / 支持对话内轻量版 / 直接支持配置化 | 已确定(支持对话内轻量版) | 产品 |
| D-025 | 回退能力最低要求 | 不要求 / 回退最近一轮 / 多轮可选回退 | 已确定(回退最近一轮;多版本管理纳入P2) | 产品 |
| D-026 | 第十一章首发核心指标组合 | 多种组合方案 | 已确定(收口率+有效轮次占比+无效回摆率) | 产品 |
| D-027 | “有效优化轮次”口径 | 仅严重度下降 / 严重度下降且不新增critical / 复合打分 | 已确定(严重度下降且不新增critical) | 产品 |
| D-028 | 第十一章首发目标值 | 激进/中性/保守三档 | 已确定(70% / 50% / 15%) | 产品 |
| D-029 | Phase 1 出场标准 | 三核心指标连续1/2/3窗口达标 | 已确定(连续2窗口) | 产品 |
| D-030 | Phase 1.5 与 Phase 1 时序 | 串行 / 后半程并行 / 完全并行 | 已确定(后半程并行) | 产品 |
| D-031 | Phase 2 主目标冻结范围 | 多方案 | 已确定(配置化禁改+多版本管理) | 产品 |
| D-032 | 当前版本执行优先级 | 全路线并推 / 先P1~P1.5后续暂缓 | 已确定(先P1~P1.5后续暂缓) | 产品 |
14. 章节讨论记录(按“讨论一章、定一章”推进)
记录模板
- 讨论章节:
- 结论:
- 未决问题:
- 下一步动作:
- 更新时间:
已讨论记录
- 讨论章节:第 1 章 业务背景与问题定义
- 结论:采用“双模式策略”(默认中位最佳实践 + 偏好优先偏移);读工具按“广覆盖+区间指标”设计;自动优化轮次上限暂定 60。
- 未决问题:时长目标与是否默认开启深度思考的策略未冻结。
- 下一步动作:进入第 2 章,冻结“满意方案”与目标优先级定义。
- 更新时间:2026-04-24
- 讨论章节:第 2 章 产品目标与非目标
- 结论:目标优先级确定为 A(自主迭代收敛)> B(可解释与改进证据)> C(对话内任务类共创草案);首发先保 A+B 闭环,C 走可用版。
- 未决问题:C 可用版的覆盖范围与补全字段边界待在第 8 章细化。
- 下一步动作:进入第 3 章,明确首发用户分层与高频场景清单。
- 更新时间:2026-04-24
- 讨论章节:第 3 章补充议题 WebSearch 任务类共创
- 结论:定位为“对话内触发、产出完整任务类草案”的增强能力;知识来源为 WebSearch 通用信息 + 用户偏好,冲突时用户优先;字段按关键/普通分级确认。
- 未决问题:关键字段名单与普通字段名单待在后续章节细化。
- 下一步动作:在第 8 章与第 12 章细化能力边界与分期。
- 更新时间:2026-04-24
- 讨论章节:第 3 章阈值口径补充(S1/S2)
- 结论:S1 采用“关键字段修改率<=30%”作为小幅修改阈值;S2 采用“至少一个核心问题域严重度下降”作为有效改进最小标准。
- 未决问题:关键字段清单与核心问题域枚举待后续章节细化。
- 下一步动作:推进第 4 章核心体验原则,固化“单轮单问题域 + 复盘判定”。
- 更新时间:2026-04-24
- 讨论章节:第 3 章 用户与场景(v1.0)
- 结论:用户分层、首发场景、场景优先级、暂不支持边界、S1/S2/S3 判定口径均已形成可冻结版本。
- 未决问题:无(本章内容进入后续引用阶段)。
- 下一步动作:推进第 4 章,明确“单轮策略、复盘规范、停机确认”的执行口径。
- 更新时间:2026-04-24
- 讨论章节:第 4 章 核心体验原则(v0.1 草案)
- 结论:已形成“总纲-单轮规范-复盘规范-停机原则”的完整草案结构。
- 未决问题:D-007(用户强制覆盖策略)与 D-008(强制确认触发条件)待拍板。
- 下一步动作:根据 D-007/D-008 决策冻结第 4 章。
- 更新时间:2026-04-24
- 讨论章节:第 4 章 核心体验原则(v1.0)
- 结论:支持用户强制覆盖单轮主问题域;涉及移动类改动默认确认,用户开启“始终同意”后可自动通过并保留追溯记录。
- 未决问题:无(本章已冻结)。
- 下一步动作:进入第 5 章,细化主动优化流程与收口判定口径。
- 更新时间:2026-04-24
- 讨论章节:第 5 章 主动优化产品流程(v1.0)
- 结论:明确了“轮次定义、首轮强制体检、单轮执行闭环、连续无效3轮收口、critical=0且warning<=1收口、用户改目标即重开入场判定”。
- 未决问题:无(本章已冻结)。
- 下一步动作:进入第 6 章,细化科学安排原则与冲突优先级口径。
- 更新时间:2026-04-24
- 讨论章节:第 6 章 科学安排原则(v1.0)
- 结论:优先级确定为“硬约束 > 截止压力 > 用户偏好 > 负载 > 切换 > 容错”;冲突裁决采用分层规则;“容错”作为统一用户解释术语。
- 未决问题:无(本章已冻结)。
- 下一步动作:进入第 7 章,细化偏好模型与关键字段清单。
- 更新时间:2026-04-24
- 讨论章节:第 7 章 用户需求与偏好模型(v1.0)
- 结论:偏好采集由 memory 负责,产品层仅消费;必要点缺失必须 ask_user;关键/普通字段分级与“时间窗”统一口径已确定。
- 未决问题:无(本章已冻结)。
- 下一步动作:进入第 8 章,细化工具能力蓝图与工具边界。
- 更新时间:2026-04-24
- 讨论章节:第 8 章补充议题(首次全流程 vs 后续局部执行)
- 结论:首次主动排课默认全流程;后续局部请求默认旧工具链;仅在授权或命中指标域诉求时升级分析链路。
- 未决问题:
analyze_health是否固定为默认首入口(可跳过)仍待拍板。 - 下一步动作:继续冻结第 8 章细项后推进第 9 章。
- 更新时间:2026-04-24
- 讨论章节:第 8 章 工具能力产品蓝图(v1.0)
- 结论:
analyze_health仅在首次编排或明确触发全流程时默认首入口;分析工具默认summary,按需切换full。 - 未决问题:无(本章已冻结)。
- 下一步动作:进入第 9 章,细化对话内体验文案与解释字段规范。
- 更新时间:2026-04-24
- 讨论章节:第 9 章 关键体验与交互要求(v0.1 草案)
- 结论:已形成“双模式体验 + 单轮三段式解释 + 最小解释字段 + 用户控制边界 + 共创体验”的完整草案。
- 未决问题:D-020(默认解释风格)、D-021(最小必显字段数量)、D-022(局部模式固定边界提示)待拍板。
- 下一步动作:完成 D-020~D-022 拍板后冻结第 9 章,进入第 10 章风险与治理。
- 更新时间:2026-04-24
- 讨论章节:第 9 章 关键体验与交互要求(v1.0)
- 结论:解释风格定为“专业结论+通俗补充”;最小必显字段固定 3 项;局部模式边界提示改为按需提示;第 9 章冻结。
- 未决问题:无(本章已冻结)。
- 下一步动作:进入第 10 章,讨论风险、边界与治理策略。
- 更新时间:2026-04-24
- 讨论章节:第 10 章 风险、边界与治理(v0.1 草案)
- 结论:已形成“风险分层 + 过程治理 + 强制确认分级 + 禁改清单 + 回退追溯”的完整草案结构。
- 未决问题:D-023(强制确认范围)、D-024(禁改清单首发形态)、D-025(回退能力最低要求)待拍板。
- 下一步动作:完成 D-023~D-025 拍板后冻结第 10 章,进入第 11 章指标与验收。
- 更新时间:2026-04-24
- 讨论章节:第 10 章 风险、边界与治理(v1.0)
- 结论:强制确认范围定为 A/B/C 全硬规则;首发支持对话内轻量禁改清单;回退最低要求定为“最近一轮”,多版本管理纳入 P2;第 10 章冻结。
- 未决问题:无(本章已冻结)。
- 下一步动作:进入第 11 章,讨论目标指标与验收标准。
- 更新时间:2026-04-24
- 讨论章节:第 11 章 目标指标与验收标准(v0.1 草案)
- 结论:已形成“首发三核心指标 + 关键口径定义 + 验收窗口规则”的完整草案结构。
- 未决问题:D-026(核心指标组合)、D-027(有效轮次口径)、D-028(首发目标值)待拍板。
- 下一步动作:完成 D-026~D-028 拍板后冻结第 11 章,进入第 12 章分期路线图。
- 更新时间:2026-04-24
- 讨论章节:第 11 章 目标指标与验收标准(v1.0)
- 结论:首发核心指标冻结为“收口率+有效轮次占比+无效回摆率”;有效轮次口径冻结为“问题域下降且不新增critical”;目标值冻结为“70% / 50% / 15%”;第 11 章冻结。
- 未决问题:无(本章已冻结)。
- 下一步动作:进入第 12 章,讨论分期路线图与每期冻结范围。
- 更新时间:2026-04-24
- 讨论章节:第 12 章 分期路线图(v0.1 草案)
- 结论:已形成“分期总览 + 每期明确不做 + 出场标准 + 跨期依赖”的执行导向草案。
- 未决问题:D-029(Phase 1出场标准窗口数)、D-030(Phase 1.5与Phase 1时序)、D-031(Phase 2主目标冻结范围)待拍板。
- 下一步动作:完成 D-029~D-031 拍板后冻结第 12 章。
- 更新时间:2026-04-24
- 讨论章节:第 12 章 分期路线图(v1.0)
- 结论:Phase 1 出场标准定为连续2窗口达标;Phase 1.5 采用后半程并行;Phase 2 主目标冻结为“配置化禁改+多版本管理”;当前执行优先级定为先跑通 P1~P1.5、后续阶段暂缓;第 12 章冻结。
- 未决问题:无(本章已冻结)。
- 下一步动作:进入收尾阶段,统一检查决策表与章节状态一致性。
- 更新时间:2026-04-24
15. 术语表(持续补充)
| 术语 | 业务定义 |
|---|---|
| 主动优化 | AI 连续观测-调整-复盘-收口的优化过程 |
| 收口 | 达到阈值后停止迭代并输出最终方案 |
| 主问题域 | 单轮优化聚焦的首要问题类型 |