Files
smartmate/backend/newAgent/prd文档.md
Losita 04b5836b39 Version: 0.9.42.dev.260424
后端:
1. 新增课表图片识别接口,支持上传截图后返回“可编辑草稿”(success / partial / reject),并补齐大图、空图、格式不支持、识别能力未配置等错误分支。
2. 课表识别服务接入多模态 Responses 链路,完善图片请求归一化与安全校验(大小、MIME、内容探测),并对识别结果做结构化清洗、强/弱约束校验、告警去重与默认文案兜底。
3. 新增 Ark Responses 统一客户端抽象,支持文本+图片输入、JSON对象输出、usage统计透传与不完整输出识别;同时补齐模型返回 finish_reason 透传,便于定位截断问题。
4. 启动阶段增加课表识图模型与参数注入(模型名、最大图片字节、最大输出token),并将配置示例收敛为“仅保留当前代码实际读取项”。

前端:
5. 课表中心新增“导入课表”完整闭环:上传图片识别、草稿编辑校对、正式导入落库;并新增对应 API 与类型定义。
6. 导入弹窗支持识别中止、全局告警与行级告警展示、低置信度提示、行内编辑、手动新增、删除、拖拽排序、本地校验与提交前二次确认。
7. 正式导入前将草稿按“课程名+地点+是否允许嵌入”聚合为导入结构,并统一携带幂等键请求头,降低重复提交风险。
8. 周课表画板修复跨节次事件遮挡导致的网格错位问题,改进“完全遮挡/部分遮挡”渲染判定与 grid 行定位。
9. 助手流式区域优化“思考中”指示逻辑与样式,避免已有正文时仍展示回答中占位;同时补充全局组件视觉统一(弹窗/按钮)样式。

仓库:
10. 新增课表图片识别前端对接说明文档,补充主动优化能力 PRD 讨论稿,并在协作规范中新增“实现 Eino 新能力前需先查官方文档”的约束。
2026-04-24 23:33:43 +08:00

46 KiB
Raw Blame History

SmartFlow 主动优化功能 PRD讨论版

0. 文档信息

  • 文档状态:讨论中(骨架版)
  • 适用范围:主动优化(对话内 execute + 对话内任务类共创)
  • 文档目的:先对齐产品方向,再指导后续实现
  • 约束说明:本 PRD 只谈产品,不谈技术实现

1. 业务背景与问题定义(已讨论 v0.1

1.1 当前用户问题

  • 用户并不总会明确表达需求,存在两类典型入口:
    • 默认入口:用户未明确偏好,只希望“尽快排好任务类”。
  • 偏好入口:用户给出较多约束与倾向(强度、时段、节奏、容错等)。
  • 现状容易把优化做成“单点最佳实践”或“一次性建议”,缺少可持续迭代与偏好对齐。
  • 因此,工具体系必须同时支持:
    • 在信息不足时,按科学界公认最佳实践给出稳健中位方案。
    • 在用户偏好明确时,优先按用户需求调参,不盲从默认最佳实践。

1.2 核心问题陈述

  • 我们要解决的问题是: 如何让 AI 在“科学最佳实践”和“用户个性化需求”之间做可解释、可调节、可收敛的主动优化。
  • 该问题直接决定工具设计方向:
    • 读工具覆盖面必须足够广,能够支撑不同偏好下的判断。
    • 每个核心指标必须是“区间型”而不是“单点型”:
      • 默认站在中位(平衡值)。
      • 能向左/向右偏移,对应不同用户诉求。

1.3 本章已确定结论

  • 首发主用户策略:
    • 若用户需求不提或较弱,系统默认采用中位最佳实践快速生成。
    • 若用户需求明确且较多,系统优先满足用户需求,科学原则作为安全边界。
  • “满意方案”判定口径(本章层面):
    • 本质不是固定模板,而是“在用户诉求方向上的可接受平衡点”。
    • 默认用户采用中位平衡;偏好用户采用定向偏移平衡。
  • 自动优化容忍边界(当前已定项):
    • 轮次上限暂定 60 轮。
    • 时长与是否开启深度思考的权衡暂不在本章冻结,后续章节决策。

1.4 对后续章节的约束

  • 第 6 章(科学原则)必须给出“中位默认 + 双向偏移”的可解释规则。
  • 第 8 章(工具蓝图)必须体现“覆盖广度 + 区间刻度”的产品能力。
  • 第 11 章(指标验收)必须衡量“默认模式质量”与“偏好对齐质量”两条线。

2. 产品目标与非目标(已讨论 v0.1

2.1 产品目标定义与优先级(已定)

  • 目标 A最高优先级自主迭代收敛
    • 定义AI 以“观测-调整-复盘”循环持续优化,直到达到可接受方案再收口。
    • 用户价值:减少用户逐步指挥成本,体现“主动出击”。
  • 目标 B第二优先级可解释且有改进证据
    • 定义:每轮调整都要给出“为何调整、调整内容、前后差异”。
    • 用户价值:可控、可信,避免“黑箱瞎调”。
  • 目标 C第三优先级对话内任务类共创草案
    • 定义用户在聊天中触发后AI 通过反问与检索产出完整任务类草案。
    • 用户价值:降低冷启动门槛,减少配置负担,避免新增第二交互区。
  • 优先级结论:A > B > C

2.2 阶段目标策略(已定)

  • 首发必须保证A 与 B 构成闭环能力。
  • 首发可落可迭代C 以“可用版”上线,后续逐步提高草案准确率与覆盖深度。
  • 取舍原则:若资源冲突,优先保障 A若 A 满足基本可用,再保障 BC 按剩余资源推进。

2.3 非目标(已定)

  • 不追求一次优化即全局最优,目标是“可收敛的高质量可接受方案”。
  • 不追求首发覆盖全部学习风格与全部人群偏好。
  • 不追求在高风险场景下完全替代用户决策。
  • 不以“工具数量”作为目标,避免能力堆叠但无法形成闭环价值。

2.4 本章已确定结论

  • 我们的核心差异化能力是 A主动迭代优化不是一次性建议或单轮算法执行。
  • B 是 A 的信任保障,必须同步建设,不能后补。
  • C 是重要入口能力,但在首发阶段不应挤占 A/B 的闭环建设资源。

2.5 对后续章节的约束

  • 第 5 章(主动优化流程)必须完整体现 A 的循环收敛机制。
  • 第 9 章(交互要求)必须体现 B 的解释与改进证据结构。
  • 第 12 章(分期路线图)必须以 A > B > C 排序规划交付。

3. 用户与场景(已讨论 v1.0

3.1 目标用户分层(已形成草案)

用户分层 典型特征 当前痛点 价值诉求 首发优先级
极速排程型 不想多聊,希望尽快出方案 参数配置成本高、上手慢 一键可用、少改动 P1
偏好驱动型 明确表达强度/时段/节奏偏好 通用最佳实践不一定贴合个人需求 结果沿偏好方向明显偏移、可控可解释 P0首发主优先
反复调优型 接受多轮优化,关注持续变好 容易遇到来回调整、无效微调 稳定收敛、每轮有改进证据 P1

3.2 首发核心场景清单(已形成草案)

场景 触发方式 用户期望 成功标准
场景 S1对话内任务类共创草案 用户在聊天中提出“帮我设计任务类” 快速得到完整且可确认的任务类草案 用户可直接采纳或仅小幅修改后采纳
场景 S2对话内“帮我优化一下” 用户在对话中发起优化请求 AI 主动多轮调整并收口 至少完成 1-2 轮有效改进且最终可交付
场景 S3对话内“按我的偏好重排” 用户明确给出偏好/约束 AI 优先满足偏好,不盲从默认最佳实践 结果明显朝偏好方向偏移且不破坏硬约束

3.3 场景优先策略(已形成草案)

  • 首发优先主线偏好驱动型P0
  • 原因:该人群最能体现本功能差异化价值,即“可调节的主动优化”,而非一次性默认排程。
  • 策略要求:所有首发核心场景都必须支持“默认中位 + 偏好偏移”双模式。

3.4 暂不支持场景清单(草案)

暂不支持场景 暂缓原因 后续进入条件
跨超长周期(如整学期/跨学期)全局最优规划 目标跨度过大,首发优先保证局部收敛质量 收敛稳定性和性能目标达标后再纳入
多主体联合排程(多人协同/冲突协商) 交互复杂度高,超出首发边界 单人场景成熟后评估
高风险不可逆决策自动执行 需要更强确认链路与责任边界 风险治理机制完善后评估

3.5 本章已确定的判定阈值口径

  • S1任务类共创草案“小幅修改”阈值
    • 定义:关键字段修改率 <= 30% 视为“小幅修改”。
    • 用途:衡量草案可用性与采纳质量(用于产品验收,不作为用户前台提示)。
  • S2主动优化“有效改进”最小标准
    • 定义:至少一个核心问题域的严重度下降,视为“有效改进”。
    • 严重度层级:critical > warning > info
    • 用途:判断单轮优化是否有实质收益,避免无效循环。
  • S3偏好冲突裁决规则
    • 定义:用户偏好优先,科学原则兜底。
    • 用途:在“通用最佳实践 vs 用户个性化需求”冲突时,给出统一裁决路径。

3.6 新增场景候选对话内任务类共创WebSearch 增强)

3.6.1 场景定义(已讨论结论)

  • 场景目标:由 AI 在对话中产出“完整任务类草案”,而非仅补全单个参数。
  • 触发方式:仅支持聊天触发,不新增聊天外按钮入口。
  • 原因:该能力需要多轮反问与澄清,若放在聊天外容易形成“第二对话区”,增加认知负担。

3.6.2 信息来源优先级(已讨论结论)

  • WebSearch 负责:补充通用知识(如课程信息、学习路径共识、考试结构常识)。
  • 用户输入负责:表达个人偏好与约束(强度、时段、节奏、目标侧重)。
  • 冲突处理:用户偏好优先,通用知识仅作参考与兜底。

3.6.3 字段确认策略(已讨论结论)

  • 关键字段:必须用户确认后落库。
  • 普通字段:允许静默落库,并在结果摘要中可追溯展示。

3.6.4 成功标准(草案)

  • 草案采纳率(用户直接采纳完整草案的比例)。
  • 草案修改率(用户修改后采纳的比例)。
  • 后续优化收敛效率(基于该草案进入主动优化后的平均有效轮次变化)。

4. 核心体验原则(已讨论 v1.0

4.1 体验总纲(草案)

  • 原则 1先看全局再做局部。
    • 先识别主要矛盾,再执行局部调整,避免“盲调”。
  • 原则 2单轮单主问题域。
    • 每轮只聚焦一个主问题域,降低震荡与来回改动。
  • 原则 3每轮必须复盘并判定有效性。
    • 任何调整都要有“是否变好”的结论,不允许无结论进入下一轮。
  • 原则 4达标即收口。
    • 达到可接受阈值后立即停止,避免过度优化。
  • 原则 5偏好优先、科学兜底。
    • 用户偏好是目标方向,科学原则提供安全边界。
  • 原则 6硬约束优先于体验优化。
    • 先保证不违约束,再追求负载/节奏/切换等体验改进。

4.2 单轮优化行为规范(草案)

  • 规范 A本轮开始前必须声明“主问题域 + 目标变化”。
  • 规范 B单轮仅允许一个主问题域允许附带次问题观察但不展开动作。
  • 规范 C同一主问题域若尚未出现有效改进不应频繁切换到其他问题域。
  • 规范 D若用户明确指定优化方向优先采用用户方向作为本轮主问题域。

4.3 单轮复盘输出规范(草案)

  • 每轮都应给出三段式结果:
    • 本轮目标:本轮要改善什么。
    • 本轮改动:改了哪些关键位置。
    • 本轮结果:哪些指标或问题严重度发生了变化。
  • 单轮判定结果仅允许两类:
    • 有效改进:至少一个核心问题域严重度下降。
    • 无效改进:无严重度下降,需换策略或收口。

4.4 收口与停机原则(已定)

  • 正常收口条件:
    • 达到可接受方案阈值;
    • 或主要问题已降至可接受等级。
  • 防循环停机条件:
    • 连续多轮无有效改进;
    • 或达到轮次上限(当前上限 60
  • 强制人工确认规则(已定):
    • 只要涉及“移动类改动”,默认都需用户确认后执行。
    • 仅当用户显式开启“始终同意”时,允许自动通过确认。
    • 即使自动通过,也需在结果中保留可追溯记录。

4.5 本章已确定结论

  • Q4-1 结论:支持用户强制覆盖单轮主问题域。
    • 说明:前端已支持用户自由拖动,该能力与产品原则一致。
  • Q4-2 结论:采用“移动必确认,始终同意可自动通过”的统一规则。
    • 说明:确认链路以用户控制权优先,兼顾效率模式。

5. 主动优化产品流程(已讨论 v1.0

5.0 模式切换策略(补充,已定)

  • 首次主动排课(粗排 + 主动微调)默认启用全流程模式。
  • 后续局部调整请求默认启用局部执行模式(优先旧工具链)。
  • 仅在以下情况升级为全流程模式:
    • 用户明确授权“重新全局优化”;
    • 用户诉求明确命中指标域(如切换过多、太满、容错不足等)。

5.1 流程总览(已定)

  1. 入场判定:确定本次优化模式(默认中位 / 偏好驱动)、目标窗口、可改动范围。
  2. 首轮体检:强制先体检,再进入改动(避免盲调)。
  3. 迭代优化:按“单轮主问题域”执行改动与复盘。
  4. 收口判定:达标即收口;未达标则继续循环。
  5. 异常处理:冲突、失败、用户改目标时按规则回退或重开。
  6. 结果交付:输出改动摘要、改进证据、剩余风险与下一步建议。

5.2 轮次定义(已定)

  • “1 轮优化”定义为一次完整闭环:
    1. 选定主问题域;
    2. 生成本轮改动方案;
    3. 通过确认门禁;
    4. 执行改动;
    5. 复盘并判定有效/无效。
  • 说明:
    • 仅观察不改动,不计入优化轮。
    • “连续无效轮次”仅统计“已执行改动但未出现有效改进”的轮。

5.3 详细流程规则(已定)

5.3.1 入场判定

  • 输入:用户目标、偏好、限制、当前日程状态。
  • 输出:本次优化上下文(模式、范围、约束、初始问题池)。
  • 规则:若用户目标不明确,默认按中位最佳实践入场。
  • 规则补充:
    • 局部执行模式可跳过全流程体检,直接做最小必要校验后执行。
    • 全流程模式必须先体检再改动。

5.3.2 首轮体检(强制)

  • 必须先完成体检再改动。
  • 体检结果至少包含:问题清单、严重度排序、建议主问题域。
  • 禁止跳过体检直接执行改动。

5.3.3 单轮优化执行

  • 每轮必须先声明:本轮主问题域与目标变化。
  • 本轮仅允许一个主问题域,避免并发多目标拉扯。
  • 涉及移动类改动:
    • 默认需用户确认;
    • 用户开启“始终同意”后可自动通过;
    • 自动通过仍需可追溯记录。

5.3.4 单轮复盘判定

  • 有效改进标准:至少一个核心问题域严重度下降。
  • 无效改进标准:执行改动后无严重度下降。
  • 无效轮次处置:允许换策略继续,但需计入连续无效轮次计数。

5.4 收口规则(已定)

  • 正常收口阈值:
    • critical = 0
    • warning <= 1
  • 防循环强制收口:
    • 连续无效轮次 >= 3
    • 或达到总轮次上限(当前 60 轮)。
  • 收口后必须输出:已解决问题、未解决问题、建议后续动作。

5.5 用户中途改目标处理(已定)

  • 当用户在优化过程中明确变更目标/偏好时:
    • 立即重开“入场判定”;
    • 清空当前主问题域上下文;
    • 基于新目标重新体检并进入下一轮。
  • 目的:避免沿旧目标继续优化导致结果跑偏。

5.6 本章已确定结论

  • 首轮体检强制执行。
  • 可接受阈值采用 critical=0 且 warning<=1
  • 连续无效 3 轮即强制收口。
  • 用户中途改目标时,必须重开入场判定。
  • 首次主动排课默认全流程;后续局部调整默认旧工具链。

6. 科学安排原则(已讨论 v1.0

6.1 原则优先级(已定)

按“上位约束可否决下位偏好”的顺序执行:

  1. 硬约束合法性(不可冲突、不可越界、不可违规改动)
  2. 截止与时间压力(先保证不发生明显延期风险)
  3. 用户偏好方向(在上位约束允许范围内优先满足)
  4. 负载均衡(避免极端堆积与突增)
  5. 认知切换(控制高频切换与过长连续块)
  6. 容错能力(可用空窗规模,平衡稳定性与利用率)

6.2 冲突裁决规则(已定)

冲突场景 裁决规则 用户可覆盖性
用户偏好 vs 硬约束合法性 硬约束优先,拒绝违规方案并给替代建议 不可覆盖
用户偏好 vs 截止/时间压力红线 截止压力优先,默认前移高风险任务 可显式确认后覆盖部分策略
用户偏好 vs 下位优化项(负载/切换/容错) 用户偏好优先,科学原则兜底 可覆盖
无明确用户偏好 采用中位最佳实践 不适用

6.3 原则刻度化口径(中位默认 + 双向偏移)

原则维度 中位默认 左偏 右偏
负载强度 平衡推进 低强度(更松) 冲刺强度(更满)
截止推进 均衡前移 早缓冲(更早完成) 临近冲刺(更晚推进)
认知切换 适度切换 低切换(同类聚合) 高切换(灵活穿插)
容错能力 平衡容错 高容错(多留大空窗) 低容错(任务排得更满)

6.4 软硬约束分层(已定)

  • 硬约束:
    • 合法性约束(冲突、越界、禁止改动范围)
    • 截止/时间压力红线
  • 软约束:
    • 负载均衡
    • 认知切换
    • 容错能力
  • 执行原则:
    • 先满足硬约束,再在软约束内做偏好优化。

6.5 本章已确定结论

  • 科学原则优先级已固定为“硬约束与截止优先,偏好次之,其余体验项随后优化”。
  • 冲突裁决已固定为“分层裁决”:不可覆盖项直接否决,可覆盖项通过显式确认处理。
  • “容错”作为用户可理解维度,已替代“空窗/缓冲”作为统一外显术语。

7. 用户需求与偏好模型(已讨论 v1.0

7.1 边界定义(已定)

  • 本章只定义“偏好消费与确认规则”,不定义“偏好采集机制”。
  • 偏好采集由 memory 系统负责:
    • 持续采集;
    • 去重注入;
    • 产品层直接消费。

7.2 偏好消费优先级(已定)

  1. 用户显式输入(最高优先级)
  2. memory 注入偏好(次优先)
  3. WebSearch 通用知识(仅补全,不可覆盖用户偏好)
  4. 无信息时采用中位默认值

7.3 必要点判定与 ask_user 规则(已定)

  • 必要点定义:缺失会导致方案不可执行或高风险误判的关键信息。
  • 必要点缺失时:必须 ask_user不允许静默推断。
  • 当前必要点清单:
    • 时间窗(至少明确 endstart 可按策略补齐);
    • 强度方向(均匀/冲刺);
    • 容错偏好(高容错/平衡/低容错);
    • 禁排时段(若用户表达了禁忌但未结构化)。

7.4 字段分级(已定)

7.4.1 关键字段(必须确认)

  • 时间窗start/end截止时间统一归入 end不单列重复字段
  • 强度策略(均匀/冲刺)
  • 总预算total_slots
  • 容错偏好(高容错/平衡/低容错)
  • 禁排时段excluded_slots
  • 任务项清单完整性(是否齐全)
  • 任务项优先级/依赖关系(如用户提供)

7.4.2 普通字段(可静默落)

  • 推荐时段偏好权重(上午/下午/晚间)
  • 同类任务聚合偏好(聚合/平衡/穿插)
  • 阶段里程碑拆分建议
  • 标准化知识标签与学习路径备注(命中统一标准时结构化落地;未命中仅文本备注)

7.5 口径修正(已定)

  • 不在偏好层管理“单次学习块长度”:
    • 该项属于任务类/任务项结构属性,不作为本章普通偏好字段。
  • 统一命名“时间窗”:
    • “截止时间”视为时间窗 end 的口语表达,不单列独立字段。

7.6 本章已确定结论

  • 偏好由 memory 采集,产品层只做消费与确认。
  • 必要点缺失必须 ask_user避免静默误判。
  • 字段分级与统一命名口径已固定,可直接指导后续工具设计与交互文案。

8. 工具能力产品蓝图(已讨论 v1.0

8.1 工具分层(产品视角)

  • 事实读取层:告诉 AI“现在是什么”
  • 分析体检层:告诉 AI“问题在哪”
  • 评估复盘层:告诉 AI“这轮是否变好”
  • 执行动作层:让 AI 进行可控调整(以旧工具链为主)

8.2 混合工具策略(新增)

  • 策略 1旧工具保留为主执行层不做全线替换。
  • 策略 2新分析工具作为导航层主要用于首次主动排课与指标域重优化。
  • 策略 3局部请求默认旧工具直达执行避免过度主动出击。
  • 策略 4仅在用户授权或命中指标域诉求时升级为分析链路。

8.3 对话内能力(草案)

能力 适用模式 用户价值 AI 产出 风险控制
analyze_health总览体检 首次编排/明确触发全流程时默认首入口(可跳过) 快速定位主要问题 metrics/issues/next_actions 防盲钻、防误判
analyze_load 全流程模式/指标域触发 识别过载与波动 负载证据 + 动作建议 防局部最优
analyze_subjects 全流程模式/指标域触发 识别科目节奏与预算压力 分布证据 + 动作建议 防断档
analyze_context 全流程模式/指标域触发 识别切换过高与碎片化 切换证据 + 动作建议 防认知疲劳
analyze_tolerance 全流程模式/指标域触发 识别容错不足风险 容错证据 + 动作建议 防计划脆弱
build_task_class_draftWebSearch增强 共创模式 从 0 到 1 生成可用任务类草案 完整任务类草案 + 关键字段确认请求 防知识幻觉、防越权落库

8.4 分析工具输出结构规范(草案)

  • 分析工具统一返回三段:
    • metrics:测量值;
    • issues问题及严重度critical/warning/info
    • next_actions:下一步建议(只建议,不自动执行)。
  • 细节级别:
    • 默认 summary
    • 用户追问或需要取证时使用 full

8.5 WebSearch 共创能力边界(新增)

  • 本能力定位:对话内共创,不替代主动优化主线。
  • 输出形态:完整任务类草案,不是单字段建议。
  • 决策边界:用户偏好优先于通用知识。
  • 安全边界:关键字段需确认,普通字段可静默落并可追溯。

8.6 本章已确定结论

  • analyze_health 仅在“首次编排”或“用户明确触发全流程”时作为默认首入口(可跳过)。
  • 分析工具默认明细级别统一为 summary,用户追问或需取证时切换 full

9. 关键体验与交互要求(已讨论 v1.0

9.1 本章定位(已对齐)

  • 本章只定义“用户看到什么、怎么被解释、何时需要确认”。
  • 不定义算法细节、不定义工具内部实现。
  • 目标是让主动优化“有方向、可理解、不过度”。

9.2 双模式对话体验(已对齐)

  • 首次编排/明确触发全流程时:进入“体检 + 迭代优化”模式,先给全局判断,再给单轮改进。
  • 后续局部请求时:默认走旧工具的局部执行链,不擅自升级为全流程。
  • 仅在两类条件下可升级全流程:用户明确授权;用户诉求明确命中指标域(如“切换太多”“太满了”)。

9.3 单轮解释三段式(已定)

  • 观察段:本轮先说“我看到了什么问题”,并给最小证据(指标或现象)。
  • 动作段:再说“我准备怎么改、为什么这么改”,同时点明遵循了哪条科学原则与用户偏好。
  • 结果段:最后说“改完发生了什么变化”,并给下一步建议(继续微调或收口)。
  • 三段式的意义:让用户始终知道“问题-动作-结果”的闭环,避免 AI 黑箱式挪动。

9.4 解释字段最小集合(已定)

  • 字段1必显本轮主问题域负载/切换/截止/容错/科目分布等)。
  • 字段2必显本轮改动摘要改了哪些任务、从哪到哪、影响了哪几天
  • 字段3必显改动理由科学原则 + 用户偏好 + 冲突裁决依据)。
  • 字段4建议显前后对比至少 1 个核心指标变化)。
  • 字段5建议显副作用提示例如“容错下降”“切换略增”
  • 字段6建议显下一步建议继续某方向微调或建议收口
  • 默认规则:最少展示前 3 字段;全流程场景建议展示 1-6 字段。

9.5 用户控制与确认边界(已对齐)

  • 涉及“移动类改动”默认都要确认;若用户已开启“始终同意”,可自动通过但需可追溯。
  • 用户可自由手动拖动,系统应尊重手动结果,不反向强改。
  • 用户可随时改目标;改目标后按既定规则重开入场判定。
  • AI 可主动给建议,但不能越权执行超出用户授权范围的改动。

9.6 对话内任务类共创体验(已对齐)

  • 仅聊天触发,不做聊天外按钮触发。
  • 输出形态为“完整任务类草案”,而非零散参数建议。
  • 关键字段必须确认;普通字段可静默落并保留可追溯记录。
  • 用户偏好与 Web 通用知识冲突时,用户偏好优先。

9.7 本章已确定结论

  • 默认解释风格采用“专业结论 + 通俗补充”双层表达。
  • 最小必显字段固定为 3 项:主问题域、改动摘要、改动理由。
  • 局部模式下不强制固定边界提示,是否提示由上下文按需决定。

10. 风险、边界与治理(已讨论 v1.0

10.1 风险分层(产品视角)

  • R1 收敛风险LLM 长时间小步试探但无实质改进,造成轮次浪费。
  • R2 体验风险:指标看起来改善,但用户主观体感变差(例如更累、更碎)。
  • R3 越权风险AI 在未充分授权下做了超出预期范围的改动。
  • R4 可信风险:解释与真实改动不一致,导致用户不信任系统。
  • R5 数据风险:关键信息缺失/冲突,导致判断前提不成立却仍继续优化。

10.2 产品边界(已对齐)

  • 边界1全流程优化默认仅用于首次编排或用户明确触发后续局部请求默认局部执行。
  • 边界2涉及移动类改动默认确认用户开启“始终同意”后可自动通过但需保留追溯。
  • 边界3用户手动拖动结果优先AI 不得反向强改。
  • 边界4用户可随时改目标改目标后立即重开入场判定。
  • 边界5用户偏好与通用知识冲突时用户偏好优先。

10.3 治理机制(过程治理)

  • 入场治理:先判定是“全流程模式”还是“局部模式”;必要信息缺失必须 ask_user不允许静默猜测。
  • 轮中治理:坚持单轮单主问题域;每轮都输出“观察-动作-结果”,并判断是否有效改进。
  • 收口治理:命中 critical=0 且 warning<=1 立即收口;连续无效 3 轮或达到轮次上限强制收口。
  • 出口治理:收口时必须显式说明“当前残留问题 + 可选后续动作”,避免用户误以为已全局最优。

10.4 强制确认清单(已定)

  • A类必须确认任何会导致任务/课程位置变化的移动类改动(已拍板规则)。
  • B类必须确认会改变用户明确声明偏好的改动如偏好时段、偏好节奏
  • C类必须确认一次影响多个日期的大范围联动调整避免“无感大改”
  • 说明A/B/C 三类均为硬规则;若用户开启“始终同意”,可自动通过但须完整追溯。

10.5 “禁止 AI 改动清单”能力(已定)

  • 能力定义:用户可声明一组“不可被 AI 主动改动”的对象或范围(例如某类固定课程/某些日期)。
  • 产品意义:降低越权风险,提升高控制型用户的信任感。
  • 首发口径:支持“对话内声明即生效”的轻量禁改语义;通过现有上下文注入链路生效,本期不新增 agent 侧治理改动。
  • 后续演进:配置化、持久化禁改清单能力纳入后续阶段评估。

10.6 可追溯与回退要求(已定)

  • 每轮必须可追溯:至少记录主问题域、改动摘要、改动理由、影响范围、确认来源。
  • 对“已执行改动”应支持最小粒度回退能力,避免用户对试错型优化产生风险焦虑。
  • 回退后应触发一次简版复盘,避免回退导致隐性冲突未被感知。
  • 首发最低要求:至少支持“回退最近一轮已执行改动”;多版本日程管理(多轮历史回退)纳入 P2。

10.7 本章已确定结论

  • 强制确认范围升级为 A/B/C 三类全部硬规则。
  • 首发纳入“禁止 AI 改动清单(对话内轻量版)”。
  • 回退能力首发最低要求为“回退最近一轮”,多版本管理纳入 P2。

11. 目标指标与验收标准(已讨论 v1.0

11.1 指标设计原则(已对齐)

  • 原则1指标必须服务于“首次编排全流程”主场景不用局部请求噪声稀释判断。
  • 原则2指标必须同时覆盖“结果好不好、过程稳不稳、体验可不可信”三层。
  • 原则3指标必须可落地采集避免依赖大量主观人工打分。

11.2 首发核心指标(已定)

指标层级 指标名 指标定义(产品口径) 首发目标
结果指标 首次编排可接受收口率 首次编排全流程中,满足 critical=0 且 warning<=1 并进入收口的会话占比 >= 70%
过程指标 有效优化轮次占比 全流程会话内,“有效轮次”占总轮次比例 >= 50%
质量指标 无效回摆率 近两轮内被反向撤回的改动占全部改动比例(衡量“折返跑”) <= 15%

11.3 关键口径定义(已定)

  • 有效优化轮次:至少满足“一个核心问题域严重度下降”,且不引入新的 critical 问题。
  • 可接受收口:达到既定收口阈值(critical=0 且 warning<=1)并完成收口说明。
  • 无效回摆:同一任务/课程在短窗口内出现“改过去又改回来”的反向变更。

11.4 辅助观测指标(不作为首发硬门槛)

  • 平均收口轮次:成功收口会话平均用了多少轮(用于评估效率,不单独卡上线)。
  • 强制确认后撤销率:已确认改动后被用户撤销的比例(用于识别解释质量问题)。
  • 对话内追问率:用户对“为什么这么改”继续追问的比例(用于评估解释清晰度)。

11.5 验收规则(已定)

  • 验收窗口:按自然周滚动观测,至少连续 2 个观察窗口达标再判定“阶段通过”。
  • 达标判定:第 11.2 的 3 个核心指标同时达标。
  • 未达标处理:按指标归因回到对应章节优化(流程、工具、解释、确认边界),不允许只调阈值“做数字”。

11.6 本章已确定结论

  • 首发核心指标冻结为:可接受收口率 + 有效优化轮次占比 + 无效回摆率。
  • “有效优化轮次”口径冻结为:至少一个问题域下降,且不新增 critical
  • 首发目标值冻结为:>=70% / >=50% / <=15%

12. 分期路线图(已讨论 v1.0

12.1 分期原则(执行导向)

  • 原则1先闭环再扩面。先把“首次编排可收敛”做扎实再扩展高级能力。
  • 原则2每期都有“明确不做”避免执行期目标漂移。
  • 原则3每期必须有可量化出场标准未达标不进入下一期主目标。

12.2 分期总览(已定)

阶段 核心目标 必做交付范围(产品) 明确不做(冻结范围) 出场标准(产品)
Phase 1 建立首次编排的主动优化闭环 首次编排默认全流程后续局部默认旧工具6个分析工具口径落地A/B/C三类确认规则最近一轮回退第11章三核心指标可观测 不做多版本日程管理;不做配置化禁改清单;不扩展到聊天外触发 连续2个观察窗口达到第11章目标值70%/50%/15%
Phase 1.5 建立对话内任务类共创可用版 聊天触发的完整任务类草案;关键字段确认+普通字段静默落用户偏好优先于Web通识 不做按钮触发;不做全自动无确认落库;不做课程库平台化治理 任务类草案一次可用率达到预设阈值(阈值在阶段启动前冻结)
Phase 2 强化个性化和治理能力 配置化禁改清单;多版本日程管理(含多轮回退);解释与确认策略按用户类型分层 不做跨终端复杂编排协同;不做完全自治无人值守优化 在保持Phase 1核心指标不退化前提下撤销率与追问率下降
Phase 3 平台化与长期稳定性 能力模块化复用;跨场景复用统一口径;长期策略调优与治理看板 不新增未经验证的大跨度能力域 核心指标长期稳定且新增能力不破坏既有闭环

12.3 Phase 1 最小可用闭环MVP定义已定

  • 入口:仅“首次编排”自动进入全流程,或用户明确触发全流程。
  • 执行:按既定单轮机制运行(观察-动作-结果并遵守A/B/C确认规则。
  • 收口:按既定阈值收口(critical=0 且 warning<=1;或触发强制收口)。
  • 保障:支持最近一轮回退、保留可追溯记录、支持对话内轻量禁改。
  • 验收以第11章三核心指标作为唯一阶段通过标准。

12.4 跨期依赖关系(已定)

  • Phase 1 是所有后续阶段前置,未通过则不进入 Phase 2 的主交付。
  • Phase 1.5 可与 Phase 1 后段并行推进,但不得影响 Phase 1 指标达标。
  • Phase 2 的多版本管理与配置化禁改,依赖 Phase 1 的追溯数据结构稳定。

12.5 本章已确定结论

  • Phase 1 出场标准固定为第11章三核心指标连续 2 个窗口达标。
  • Phase 1.5 与 Phase 1 时序固定为:允许后半程并行推进,前提是不影响 Phase 1 指标达标。
  • Phase 2 主目标冻结为:配置化禁改清单 + 多版本日程管理。

12.6 当前执行优先级(新增)

  • 当前版本优先目标为“先跑通 Phase 1 ~ Phase 1.5”。
  • Phase 2 / Phase 3 暂缓,待前两阶段稳定后再回到路线图继续推进。

13. 待决策清单(滚动更新)

编号 议题 决策选项 当前状态 负责人
D-001 对话内主动优化目标优先级 A>B>C / A=C>B / C>A>B 已确定A>B>C 产品
D-002 WebSearch 任务类设计触发形态 聊天触发 / 聊天外按钮触发 已确定(聊天触发) 产品
D-003 WebSearch 与用户偏好冲突策略 通用知识优先 / 用户偏好优先 已确定(用户偏好优先) 产品
D-004 任务类草案落库确认策略 全字段确认 / 关键字段确认+普通字段静默落 已确定(后者) 产品
D-005 任务类草案“小幅修改”阈值 20% / 30% / 40% 已确定30% 产品
D-006 主动优化“有效改进”最小标准 严重度下降 / 分数提升 / 二者同时满足 已确定(至少一个问题域严重度下降) 产品
D-007 用户是否可强制覆盖单轮主问题域 支持 / 不支持 / 有条件支持 已确定(支持) 产品
D-008 强制人工确认触发条件 精简2类 / 标准3类 / 扩展4类+ 已确定(涉及移动默认确认;始终同意可自动通过) 产品
D-009 连续无效轮次强制收口阈值 2 / 3 / 4 已确定3 产品
D-010 可接受方案阈值 critical=0且warning<=0/1/2 已确定critical=0 且 warning<=1 产品
D-011 用户中途改目标处理策略 延续当前轮 / 下轮生效 / 立即重开入场判定 已确定(立即重开入场判定) 产品
D-012 科学原则优先级 多种排序方案 已确定(硬约束 > 截止压力 > 用户偏好 > 负载 > 切换 > 容错) 产品
D-013 原则冲突裁决口径 用户优先 / 科学优先 / 分层裁决 已确定(分层裁决) 产品
D-014 偏好模型边界 产品层负责采集+消费 / 仅消费不采集 已确定(仅消费不采集) 产品
D-015 必要点缺失处理 静默推断 / ask_user / 混合策略 已确定(必要点缺失必须 ask_user 产品
D-016 后续局部请求默认模式 全流程优先 / 局部执行优先 已确定(局部执行优先) 产品
D-017 旧工具与新工具关系 全替换 / 并行混合 已确定(并行混合,旧工具主执行) 产品
D-018 analyze_health 默认入口触发条件 全程默认 / 首次与明确触发默认 已确定(首次与明确触发默认) 产品
D-019 分析工具默认明细级别 summary / full 已确定summary 产品
D-020 第九章默认解释风格 纯专业 / 纯通俗 / 专业结论+通俗补充 已确定(专业结论+通俗补充) 产品
D-021 第九章最小必显字段 2项 / 3项 / 4项+ 已确定3项 产品
D-022 局部模式是否固定边界提示 固定提示 / 按需提示 已确定(按需提示) 产品
D-023 第十章强制确认范围 仅A类移动类硬规则 / A+B类硬规则 / A+B+C类硬规则 已确定A+B+C类硬规则 产品
D-024 首发是否支持禁改清单 不支持 / 支持对话内轻量版 / 直接支持配置化 已确定(支持对话内轻量版) 产品
D-025 回退能力最低要求 不要求 / 回退最近一轮 / 多轮可选回退 已确定回退最近一轮多版本管理纳入P2 产品
D-026 第十一章首发核心指标组合 多种组合方案 已确定(收口率+有效轮次占比+无效回摆率) 产品
D-027 “有效优化轮次”口径 仅严重度下降 / 严重度下降且不新增critical / 复合打分 已确定严重度下降且不新增critical 产品
D-028 第十一章首发目标值 激进/中性/保守三档 已确定70% / 50% / 15% 产品
D-029 Phase 1 出场标准 三核心指标连续1/2/3窗口达标 已确定连续2窗口 产品
D-030 Phase 1.5 与 Phase 1 时序 串行 / 后半程并行 / 完全并行 已确定(后半程并行) 产品
D-031 Phase 2 主目标冻结范围 多方案 已确定(配置化禁改+多版本管理) 产品
D-032 当前版本执行优先级 全路线并推 / 先P1~P1.5后续暂缓 已确定先P1~P1.5后续暂缓) 产品

14. 章节讨论记录(按“讨论一章、定一章”推进)

记录模板

  • 讨论章节:
  • 结论:
  • 未决问题:
  • 下一步动作:
  • 更新时间:

已讨论记录

  • 讨论章节:第 1 章 业务背景与问题定义
  • 结论:采用“双模式策略”(默认中位最佳实践 + 偏好优先偏移);读工具按“广覆盖+区间指标”设计;自动优化轮次上限暂定 60。
  • 未决问题:时长目标与是否默认开启深度思考的策略未冻结。
  • 下一步动作:进入第 2 章,冻结“满意方案”与目标优先级定义。
  • 更新时间2026-04-24
  • 讨论章节:第 2 章 产品目标与非目标
  • 结论:目标优先级确定为 A自主迭代收敛> B可解释与改进证据> C对话内任务类共创草案首发先保 A+B 闭环C 走可用版。
  • 未决问题C 可用版的覆盖范围与补全字段边界待在第 8 章细化。
  • 下一步动作:进入第 3 章,明确首发用户分层与高频场景清单。
  • 更新时间2026-04-24
  • 讨论章节:第 3 章补充议题 WebSearch 任务类共创
  • 结论:定位为“对话内触发、产出完整任务类草案”的增强能力;知识来源为 WebSearch 通用信息 + 用户偏好,冲突时用户优先;字段按关键/普通分级确认。
  • 未决问题:关键字段名单与普通字段名单待在后续章节细化。
  • 下一步动作:在第 8 章与第 12 章细化能力边界与分期。
  • 更新时间2026-04-24
  • 讨论章节:第 3 章阈值口径补充S1/S2
  • 结论S1 采用“关键字段修改率<=30%”作为小幅修改阈值S2 采用“至少一个核心问题域严重度下降”作为有效改进最小标准。
  • 未决问题:关键字段清单与核心问题域枚举待后续章节细化。
  • 下一步动作:推进第 4 章核心体验原则,固化“单轮单问题域 + 复盘判定”。
  • 更新时间2026-04-24
  • 讨论章节:第 3 章 用户与场景v1.0
  • 结论用户分层、首发场景、场景优先级、暂不支持边界、S1/S2/S3 判定口径均已形成可冻结版本。
  • 未决问题:无(本章内容进入后续引用阶段)。
  • 下一步动作:推进第 4 章,明确“单轮策略、复盘规范、停机确认”的执行口径。
  • 更新时间2026-04-24
  • 讨论章节:第 4 章 核心体验原则v0.1 草案)
  • 结论:已形成“总纲-单轮规范-复盘规范-停机原则”的完整草案结构。
  • 未决问题D-007用户强制覆盖策略与 D-008强制确认触发条件待拍板。
  • 下一步动作:根据 D-007/D-008 决策冻结第 4 章。
  • 更新时间2026-04-24
  • 讨论章节:第 4 章 核心体验原则v1.0
  • 结论:支持用户强制覆盖单轮主问题域;涉及移动类改动默认确认,用户开启“始终同意”后可自动通过并保留追溯记录。
  • 未决问题:无(本章已冻结)。
  • 下一步动作:进入第 5 章,细化主动优化流程与收口判定口径。
  • 更新时间2026-04-24
  • 讨论章节:第 5 章 主动优化产品流程v1.0
  • 结论明确了“轮次定义、首轮强制体检、单轮执行闭环、连续无效3轮收口、critical=0且warning<=1收口、用户改目标即重开入场判定”。
  • 未决问题:无(本章已冻结)。
  • 下一步动作:进入第 6 章,细化科学安排原则与冲突优先级口径。
  • 更新时间2026-04-24
  • 讨论章节:第 6 章 科学安排原则v1.0
  • 结论:优先级确定为“硬约束 > 截止压力 > 用户偏好 > 负载 > 切换 > 容错”;冲突裁决采用分层规则;“容错”作为统一用户解释术语。
  • 未决问题:无(本章已冻结)。
  • 下一步动作:进入第 7 章,细化偏好模型与关键字段清单。
  • 更新时间2026-04-24
  • 讨论章节:第 7 章 用户需求与偏好模型v1.0
  • 结论:偏好采集由 memory 负责,产品层仅消费;必要点缺失必须 ask_user关键/普通字段分级与“时间窗”统一口径已确定。
  • 未决问题:无(本章已冻结)。
  • 下一步动作:进入第 8 章,细化工具能力蓝图与工具边界。
  • 更新时间2026-04-24
  • 讨论章节:第 8 章补充议题(首次全流程 vs 后续局部执行)
  • 结论:首次主动排课默认全流程;后续局部请求默认旧工具链;仅在授权或命中指标域诉求时升级分析链路。
  • 未决问题:analyze_health 是否固定为默认首入口(可跳过)仍待拍板。
  • 下一步动作:继续冻结第 8 章细项后推进第 9 章。
  • 更新时间2026-04-24
  • 讨论章节:第 8 章 工具能力产品蓝图v1.0
  • 结论:analyze_health 仅在首次编排或明确触发全流程时默认首入口;分析工具默认 summary,按需切换 full
  • 未决问题:无(本章已冻结)。
  • 下一步动作:进入第 9 章,细化对话内体验文案与解释字段规范。
  • 更新时间2026-04-24
  • 讨论章节:第 9 章 关键体验与交互要求v0.1 草案)
  • 结论:已形成“双模式体验 + 单轮三段式解释 + 最小解释字段 + 用户控制边界 + 共创体验”的完整草案。
  • 未决问题D-020默认解释风格、D-021最小必显字段数量、D-022局部模式固定边界提示待拍板。
  • 下一步动作:完成 D-020~D-022 拍板后冻结第 9 章,进入第 10 章风险与治理。
  • 更新时间2026-04-24
  • 讨论章节:第 9 章 关键体验与交互要求v1.0
  • 结论:解释风格定为“专业结论+通俗补充”;最小必显字段固定 3 项;局部模式边界提示改为按需提示;第 9 章冻结。
  • 未决问题:无(本章已冻结)。
  • 下一步动作:进入第 10 章,讨论风险、边界与治理策略。
  • 更新时间2026-04-24
  • 讨论章节:第 10 章 风险、边界与治理v0.1 草案)
  • 结论:已形成“风险分层 + 过程治理 + 强制确认分级 + 禁改清单 + 回退追溯”的完整草案结构。
  • 未决问题D-023强制确认范围、D-024禁改清单首发形态、D-025回退能力最低要求待拍板。
  • 下一步动作:完成 D-023~D-025 拍板后冻结第 10 章,进入第 11 章指标与验收。
  • 更新时间2026-04-24
  • 讨论章节:第 10 章 风险、边界与治理v1.0
  • 结论:强制确认范围定为 A/B/C 全硬规则;首发支持对话内轻量禁改清单;回退最低要求定为“最近一轮”,多版本管理纳入 P2第 10 章冻结。
  • 未决问题:无(本章已冻结)。
  • 下一步动作:进入第 11 章,讨论目标指标与验收标准。
  • 更新时间2026-04-24
  • 讨论章节:第 11 章 目标指标与验收标准v0.1 草案)
  • 结论:已形成“首发三核心指标 + 关键口径定义 + 验收窗口规则”的完整草案结构。
  • 未决问题D-026核心指标组合、D-027有效轮次口径、D-028首发目标值待拍板。
  • 下一步动作:完成 D-026~D-028 拍板后冻结第 11 章,进入第 12 章分期路线图。
  • 更新时间2026-04-24
  • 讨论章节:第 11 章 目标指标与验收标准v1.0
  • 结论:首发核心指标冻结为“收口率+有效轮次占比+无效回摆率”有效轮次口径冻结为“问题域下降且不新增critical”目标值冻结为“70% / 50% / 15%”;第 11 章冻结。
  • 未决问题:无(本章已冻结)。
  • 下一步动作:进入第 12 章,讨论分期路线图与每期冻结范围。
  • 更新时间2026-04-24
  • 讨论章节:第 12 章 分期路线图v0.1 草案)
  • 结论:已形成“分期总览 + 每期明确不做 + 出场标准 + 跨期依赖”的执行导向草案。
  • 未决问题D-029Phase 1出场标准窗口数、D-030Phase 1.5与Phase 1时序、D-031Phase 2主目标冻结范围待拍板。
  • 下一步动作:完成 D-029~D-031 拍板后冻结第 12 章。
  • 更新时间2026-04-24
  • 讨论章节:第 12 章 分期路线图v1.0
  • 结论Phase 1 出场标准定为连续2窗口达标Phase 1.5 采用后半程并行Phase 2 主目标冻结为“配置化禁改+多版本管理”;当前执行优先级定为先跑通 P1~P1.5、后续阶段暂缓;第 12 章冻结。
  • 未决问题:无(本章已冻结)。
  • 下一步动作:进入收尾阶段,统一检查决策表与章节状态一致性。
  • 更新时间2026-04-24

15. 术语表(持续补充)

术语 业务定义
主动优化 AI 连续观测-调整-复盘-收口的优化过程
收口 达到阈值后停止迭代并输出最终方案
主问题域 单轮优化聚焦的首要问题类型