Files
smartmate/docs/backend/第二阶段主动调度MVP实现方案.md
Losita 1555042e80 Version: 0.9.58.dev.260429
后端:
1.第二周期实现文档和Codex讨论了一半,先休息了,后面继续讨论
2026-04-29 23:37:22 +08:00

941 lines
45 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 第二阶段主动调度 MVP 实现方案
## 0. Handoff 说明
本文档仍在讨论中,尚未进入代码实现阶段。接手者请优先阅读本节和第 12 / 13 节,再继续补齐未拍板问题。
当前核心共识:
1. 主动调度主链路走固定 graph / service pipeline不进入 ReAct 工具循环。
2. 第一版触发源先做 `important_urgent_task``unfinished_feedback`
3. task 创建 / 更新时按 `urgency_threshold_at` upsert 主动调度 jobtask 完成后把 job 标记为 `canceled`
4. schedule 动态任务默认 `assumed_completed`,只有用户明确反馈未完成才触发补救。
5. 调度触发信号需要持久化,用于幂等、审计、排障和串联 trigger -> preview -> notification -> apply。
6. task_pool 任务进入日程时不创建孤儿 task_item而是在 `schedule_events` 上新增 `task_source_type`
- `task_source_type=task_item` 时,`rel_id` 指向 `task_items.id`
- `task_source_type=task_pool` 时,`rel_id` 指向 `tasks.id`
7. 主动调度预览新增 `active_schedule_previews`,不塞进 `agent_schedule_states`
8. 预览保存 `base_version + before_summary + preview_changes`,不保存全量 before 快照。
9. 第一版不做 apply 成功后的撤销按钮apply 失败必须事务不落库并回写失败原因。
10. 用户确认入口走主动调度详情页和确认 API不走 Agent resume详情页采用助手卡片式体验支持拖动 after 方案后确认。
11. 预览有效期 1 小时。
12. 未完成补救第一版只生成新补做块,不直接移动原已排任务。
当前仍需拍板的问题:
1. `schedule.apply.requested` 第一版到底如何切分同步 / 异步:
- 已讨论倾向:确认接口同步写 Redis 状态和轻量校验MySQL 正式写入可异步,因为重校验可能需要几百毫秒。
- 待继续明确:是否必须通过 outbox / apply request 表保证异步 apply 请求可恢复,还是 MVP 先同步调用 service。
2. 应用幂等键:
- 已解释:`preview_id + candidate_id` 只能定位候选;若支持拖动,实际 apply 内容可能不同。
- 待拍板:是否使用独立 `apply_id`,并用 `idempotency_key` 绑定一次确认尝试。
3. 飞书通知:
- 固定文案是否足够。
- 跳转 URL 规则。
- 通知幂等键按 `preview_id` 还是其它组合。
- 第一版是否落 `notification_records` 表,还是先只记录日志 / outbox 状态。
4. 主动调度代码目录和迁移边界:
- 第一版放 `backend/service/active_scheduler` 还是新建更独立的 `backend/active_scheduler`
- 事件契约是否提前放到 shared/events 风格目录。
5. `active_schedule_jobs / active_schedule_triggers / active_schedule_previews / apply request` 的具体表结构和状态机。
6. task_pool 任务预计节数字段是否本轮加到 `tasks`,还是 MVP 先默认 1 节并在预览中要求用户确认。
建议下一轮继续顺序:
1. 先拍板 apply 同步 / 异步和 `apply_id`
2. 再拍板主动调度相关表结构与状态机。
3. 再拍板飞书通知最小实现。
4. 最后补详细执行计划目录、DTO、迁移 SQL、API、worker handler、测试。
## 1. 文档目的
本文档承接《第二阶段主动调度 MVP 功能预期》和《微服务四步迁移与第二阶段并行开发计划》,用于把产品预期逐步落成可执行的工程方案。
本轮讨论采用“先业务逻辑,后执行计划”的方式推进:
1. 先按模块说明业务实现逻辑,确认这件事在产品上到底怎么流转。
2. 再列出需要拍板的问题,避免工程方案提前固化错误边界。
3. 等业务逻辑讨论完成后,再把详细执行计划、文件改动、测试方式补进对应模块。
## 2. 总体实现原则
1. 主动调度只生成诊断、候选和预览,不直接修改正式日程。
2. LLM 只在后端生成的候选里做选择,不自由构造正式写库参数。
3. 后台 worker 是主动调度主链路API 只提供测试触发、预览查询、用户确认和正式应用入口。
4. 当前仍在 `backend` Go module 内实现,但代码边界按未来 `active-scheduler` 独立服务设计。
5. 飞书第一版只走 `notification.feishu.requested` 通知事件,不承载确认和复杂聊天。
6. 所有触发源统一进入 `active_schedule.triggered`,禁止每种触发单独写一套调度逻辑。
7. 正式应用优先复用现有 schedule / task_class service不在主动调度模块绕过既有写入链路。
## 3. 目标链路
```text
后台定时 / 事件 / API 测试触发
-> active_schedule.triggered
-> 构造 ActiveScheduleContext
-> 刷新四象限紧急性派生
-> 读取滚动 24 小时任务与日程事实
-> 主动观测并生成 issues / decision / candidates
-> 写入待确认对比预览
-> 发布 schedule.preview.generated
-> 发布 notification.feishu.requested
-> 用户回系统查看并按候选确认
-> schedule.apply.requested
-> 复用正式应用链路
-> schedule.apply.succeeded / schedule.apply.failed
```
## 4. 模块一:触发入口与事件契约
### 4.1 业务实现逻辑简述
主动调度不应该依赖用户打开聊天后才发生。第一版需要支持三类入口:
1. 后台 worker 定时扫描或按事件触发。
2. API dry-run / trigger 测试触发,便于开发和验收。
3. 用户反馈类触发,例如明确说某个已排任务没完成,或表达疲劳。
三类入口最终都归一成同一个 `ActiveScheduleTrigger`,再进入同一条观测链路。
### 4.2 需要拍板的问题
1. 第一版触发源是否只做两个:`important_urgent_task``unfinished_feedback`
- 已确认:第一版先做这两类主触发。`fatigue_feedback` 可作为用户反馈类的后续扩展,不抢第一轮主链路。
2. API 测试触发是否允许直接同步返回诊断结果,还是必须也写入 outbox 后异步消费?
- 已确认:两种都保留。`dry-run` 同步返回诊断结果,不写预览、不发通知;`trigger` 走正式异步链路,写预览并发布通知事件。
3. `mock_now` 是否只允许测试接口传入,后台真实 worker 禁止传入?
- 已确认:`mock_now` 只允许 API dry-run / 测试 trigger 使用;后台 worker 正式定时触发必须使用真实当前时间。
4. 同一用户短时间多次触发的去重窗口设多长?
- 已确认:`important_urgent_task``user_id + trigger_type + target_task_id` 做 30 分钟去重;`unfinished_feedback` 按用户反馈的 `feedback_id / idempotency_key` 防重复提交,不做固定时间窗强去重。
### 4.3 待补执行计划
业务逻辑确认后补充:
1. DTO 字段定义。
2. 事件名、event_version、payload 示例。
3. API trigger / dry-run 路由设计。
4. worker handler 注册位置。
5. 单元测试与集成测试方案。
## 5. 模块二ActiveScheduleContext 构造
### 5.1 业务实现逻辑简述
`ActiveScheduleContext` 是主动调度的统一输入快照。它负责把用户、时间窗、任务、日程、四象限任务池、偏好、近期反馈和触发来源装配到一起。
上下文构造阶段需要先触发或复用四象限紧急性派生,避免后台读到懒加载前的旧任务池。
### 5.2 需要拍板的问题
1. 滚动 24 小时如何映射到当前“周 + 星期 + 节次”模型?是否第一版只按节次粒度处理?
- 已确认:候选窗口按任务 DDL / 当前滚动 24 小时映射到现有相对时间坐标week/day_of_week/section正式写入仍同时维护 schedule 现有的绝对时间与相对时间字段。
- 已确认:第一版统一按 1 节粒度处理;任务预计长度先限定在 1~4 节,后续可在创建 task 时由 AI 根据复杂度写入预计节数。
2. 四象限任务池里的 `tasks` 是否需要映射到 `task_items`,还是主动调度预览直接支持 task_pool 任务?
- 已确认:不创建无所属任务类的“孤儿 task_item”。四象限任务进入日程时保留 task_pool 身份,通过 `schedule_events.task_source_type=task_pool` 指向 `tasks.id`
3. 用户偏好第一版从哪里注入memory 摘要、task_class 配置,还是先只消费已有排程约束?
- 已确认:若候选目标来自 task 池,优先使用 memory 中的用户偏好;若候选目标来自 task_item则使用所属 task_class 的硬性偏好和约束。
4. 近期用户反馈是否第一版只作为 trigger payload不落数据库状态
- 已确认:用户反馈类触发信号需要持久化,但不面向前端展示;主要用于幂等、审计、排障和串联 trigger -> preview -> notification -> apply 链路。
### 5.3 待补执行计划
业务逻辑确认后补充:
1. `ActiveScheduleContext` 结构。
2. 任务、日程、偏好、反馈的读取入口。
3. 四象限刷新复用方案。
4. 时间窗转换与边界兜底。
## 6. 模块三:主动观测与候选生成
### 6.1 业务实现逻辑简述
主动观测能力参考 `analyze_health`:后端先做结构化观测,再生成候选,让 LLM 做选择题。
第一版候选限制为 1 到 3 个,动作范围包括:
1. 加入日程预览。
2. 未完成补救预览。
3. 后继挤压重排预览。
4. 延后结束询问。
5. 压缩融合预览。
6. 询问用户。
7. 仅提醒。
8. 收口。
### 6.2 需要拍板的问题
1. 主动观测最终是 Agent 工具,还是 worker 内部 service第一版是否同时提供内部 service 和工具壳?
- 已确认:主动观测不作为 ReAct 工具进入工具循环,而是串进固定 graph / service pipeline。LLM 直接消费观测与候选结果,负责选择和表达。
2. “重要且紧急任务未进入日程视图”的可用窗口查找,第一版是否允许打破 task_class 偏好?
- 已纠正task_pool 任务不属于 task_class不存在 task_class 偏好可打破。第一版按用户 memory 偏好和滚动 24 小时内的可用时间生成候选;若 memory 偏好与可用容量冲突,候选中说明偏好未满足的代价,而不是称为“打破 task_class 偏好”。
3. 未完成补救里,局部重排第一版复用现有粗排算法到什么程度?
- 已确认:第一版做“偏好软化版局部粗排”。输入时间窗为当前时刻到任务类结束日期,只传受影响的部分 item周几偏好和时段偏好从硬约束降级为优先级优先排偏好范围内排不下再打破偏好追加进去最后恢复这些任务的原有顺序语义。
- 工程倾向:不直接污染现有粗排主函数,新增一条局部重排实现;底层时间格、可用槽位、冲突判断等公共能力优先抽公共层复用,避免复制第三份逻辑。
4. 压缩融合候选第一版是否固定只找“下一个动态任务”,并默认 50% / 50%
- 已确认:第一版固定只找下一个动态任务作为融合对象,并默认按 50% / 50% 压缩;该候选只作为兜底预览,不自动执行。
5. close / ask_user / notify_only 的判定阈值由后端固定,还是允许 LLM 结合上下文选择?
- 已确认:参考 `analyze_health` 的裁决模式,由后端确定 `close / ask_user / notify_only / select_candidate`。LLM 不决定能不能调度,只在 `select_candidate` 时选择候选;其它场景只负责解释后端理由。
### 6.3 待补执行计划
业务逻辑确认后补充:
1. metrics / issues / decision / candidates schema。
2. 候选合法性校验规则。
3. 候选排序规则。
4. 与现有 `analyze_health` 的复用和隔离边界。
5. 单元测试覆盖场景。
## 7. 模块四:预览、前后对比与确认
### 7.1 业务实现逻辑简述
主动调度候选必须先写入待确认预览,让用户看到“为什么触发、改前是什么、改后是什么、风险是什么、不调整的后果是什么”。
确认粒度按候选项确认,不做整版黑盒确认。确认后才进入正式应用链路。
### 7.2 需要拍板的问题
1. 预览复用 `agent_schedule_states`,还是新增 `active_schedule_previews`
- 已确认:新增 `active_schedule_previews` 承载主动调度预览持久化;不直接塞进 `agent_schedule_states`。展示层可以抽通用 before/after change schema供现有会话排程预览和主动调度预览复用。
2. 预览是否必须保存 before 快照,还是第一版只保存 change item + 当前状态版本?
- 已确认:第一版不保存全量 before 快照,保存受影响范围的 `before_summary + preview_changes + base_version`,用于展示改前/改后和确认前安全校验。
3. 回滚第一版是“失败后不落库即可”,还是必须支持已应用后的撤销?
- 已确认:第一版不开放 apply 成功后的撤销能力apply 必须事务化,失败不落库,并回写 `apply_status / apply_error`。成功后轻量记录 `applied_event_ids`,为审计和后续撤销能力预留。
4. 用户确认入口走现有 Agent resume 协议,还是新增主动调度确认 API
- 已确认:不走 Agent resume。MVP 新增主动调度详情页和确认 API飞书链接进入详情页。详情页采用助手卡片式体验展示解释文案和日程对比卡片支持拖动 after 方案后确认。
5. 预览过期时间设多久?
- 已确认MVP 预览过期时间为 1 小时;过期后不可确认应用,只能重新触发生成新的预览。
### 7.3 待补执行计划
业务逻辑确认后补充:
1. 预览表或缓存结构。
2. `SchedulePreviewVersion` / `ActiveScheduleChangeItem` schema。
3. 查询预览 API。
4. 确认 API 或 resume 接入方案。
5. 幂等键与状态流转。
## 8. 模块五:正式应用链路
### 8.1 业务实现逻辑简述
主动调度模块不直接写正式日程。用户确认某个候选后,后端把候选转换为现有 service 能理解的正式应用请求。
应用成功后发布 `schedule.apply.succeeded`;失败则发布 `schedule.apply.failed`,并把失败原因写回预览状态。
### 8.2 需要拍板的问题
1. 从任务池任务加入日程时,正式写入目标是 `schedule_events(type=task, rel_id=tasks.id)`,还是先转为 `task_items`
- 已确认:不转为 `task_items`。正式写入 `schedule_events.type=task, task_source_type=task_pool, rel_id=tasks.id`,并写入对应 `schedules` 原子节次。
2. 未完成补救涉及已排任务移动时,是否第一版只支持生成新补做块,不支持直接移动原任务?
- 已确认:第一版只支持生成新的补做块,不直接移动原已排任务。这样可以降低对既有 schedule / task_item 状态的扰动,后续再扩展移动原任务。
3. `schedule.apply.requested` 第一版是否需要 outbox 异步消费,还是确认接口内同步调用 service
4. 应用幂等键用 `preview_id + candidate_id`,还是单独生成 `apply_id`
### 8.3 待补执行计划
业务逻辑确认后补充:
1. 候选到正式请求的转换器。
2. 复用 `TaskClassService.BatchApplyPlans` 的条件。
3. task_pool 任务正式落库策略。
4. 应用失败回写方案。
5. 测试场景。
## 9. 模块六:通知触达与飞书边界
### 9.1 业务实现逻辑简述
飞书第一版只提醒用户回系统确认,不在飞书内应用日程、不标记完成、不做复杂 Agent Chat。
主动调度只发布 `notification.feishu.requested`,通知 handler/provider 负责具体投递。这样后续可以把 notification 拆成独立 Go module。
### 9.2 需要拍板的问题
1. 第一版飞书通知文案是否只需要固定模板?
2. 通知是否必须包含跳转链接如果包含Web 端预览详情 URL 规则是什么?
3. 通知幂等键是否按 `preview_id`,还是按 `user_id + trigger_type + time_window`
4. 飞书 provider 第一版放在 backend worker 内,是否需要同步预留 `notification_records` 表?
### 9.3 待补执行计划
业务逻辑确认后补充:
1. `NotificationRequested` DTO。
2. 简版 provider 接口。
3. 飞书配置项。
4. 幂等与失败日志。
5. 后续迁出到 `backend/services/notification` 的边界。
## 10. 模块七:与微服务迁移的协作边界
### 10.1 业务实现逻辑简述
第二阶段开发必须避免阻塞微服务迁移。当前策略是:先在 `backend` 内按服务边界写清楚,等协议稳定后再迁出独立 module。
API、worker、active scheduler、notification、schedule apply 的边界必须从第一版就分清。
### 10.2 需要拍板的问题
1. 是否先完成 `api / worker / all` 启动边界拆分,再合入主动调度主链路?
2. 主动调度代码第一版放在 `backend/service/active_scheduler`,还是 `backend/active_scheduler`
3. 事件契约是否提前放入 `backend/shared/events` 风格目录,即使当前还未多 module
4. 第一版是否允许主动调度 service 直接依赖 DAO还是通过现有 service 读取?
### 10.3 待补执行计划
业务逻辑确认后补充:
1. 目录结构。
2. 依赖注入关系。
3. API / worker 启动装配改动点。
4. 未来迁出 `active-scheduler` 的文件边界。
## 11. 建议讨论顺序
建议按以下顺序逐个讨论:
1. 任务池任务如何进入日程视图。
2. 预览与确认协议。
3. 主动观测候选 schema。
4. 触发事件与 worker 链路。
5. 正式应用链路。
6. 飞书通知边界。
7. 目录结构与迁移边界。
## 12. 本轮决策记录
后续每轮讨论完成后,在这里追加结论。
### 12.1 触发 job 机制
1. `task` 创建或更新时,若存在 `urgency_threshold_at`,则 upsert 一条对应的主动调度 job。
2. job 的触发时间统一取 `urgency_threshold_at`;主动调度不再自行维护 `deadline_at - X` 之类的额外阈值。
3. `task` 完成后,不物理删除 job而是将仍未执行的 job 标记为 `canceled`,方便后续排查为什么没有触发。
4. `task` 更新 `deadline_at``urgency_threshold_at` 时,直接覆盖当前有效 job并刷新 `updated_at`
5. schedule 动态任务默认不写定时 job计划时间过去后按 `assumed_completed` 推进,只有用户明确反馈未完成时才进入主动调度链路。
### 12.2 待继续讨论
1. `schedule.apply.requested` 第一版同步调用 service还是进入 outbox 异步消费。
2. 应用幂等键使用 `preview_id + candidate_id`,还是单独生成 `apply_id`
3. 飞书通知固定文案、跳转 URL、通知幂等键和 `notification_records` 是否第一版落表。
### 12.3 API 触发、mock_now 与去重
1. API 侧同时提供 `dry-run``trigger` 两类测试入口:
- `dry-run`:同步执行主动观测并直接返回诊断和候选;不写预览、不发布飞书通知,主要用于开发调试和验收。
- `trigger`:进入正式主动调度链路;写入预览,并发布 `notification.feishu.requested`
2. `mock_now` 只允许 API dry-run / 测试 trigger 使用,用于模拟未来或历史时刻;后台 worker 正式定时触发必须使用真实 `time.Now()`
3. 使用 `mock_now` 的触发应在 trace / payload 中标记 `is_mock_time=true`,避免排障时把测试触发误认为真实后台触发。
4. `important_urgent_task` 触发按 `user_id + trigger_type + target_task_id` 做 30 分钟去重,避免重复生成预览和重复飞书打扰。
5. `unfinished_feedback` 触发按用户反馈的 `feedback_id / idempotency_key` 做请求幂等;不做固定时间窗强去重,避免用户连续反馈未完成时被错误吞掉。
### 12.4 上下文构造与偏好来源
1. 滚动 24 小时窗口需要映射到现有 `week / day_of_week / section` 坐标,正式应用时仍按现有 schedule 口径同时维护绝对时间与相对时间。
2. 第一版候选以 1 节为最小粒度,任务预计长度限定为 1~4 节。
3. 后续在 task 创建阶段增加预计节数字段时,可由 AI 根据任务复杂度写入该值;主动调度只消费该字段,不在调度阶段重新发明复杂度判断。
4. 偏好来源按目标类型分流:
- task 池任务:使用 memory 注入的用户偏好。
- task_item使用所属 task_class 的硬性偏好和约束。
5. `用户反馈` 在本文档中指显式调度触发信号,不是普通聊天上下文。第一版重点支持 `unfinished_feedback`,即用户明确反馈某个已排动态任务未完成。
6. 调度触发信号持久化为后端链路状态,不直接展示给前端。建议使用类似 `active_schedule_triggers` 的结构承载 `trigger_type / target_type / target_id / idempotency_key / payload_json / status`
### 12.5 task 池任务进入 schedule 的 schema 分叉
已确认采用方案 A
1.`schedule_events` 上新增任务来源列:`task_source_type`
2. `schedule_events.type` 继续表示日程展示与占用类型,保持现有 `course / task` 语义。
3.`type = task` 时,`task_source_type` 表示任务来源:
- `task_item``rel_id` 指向 `task_items.id`
- `task_pool``rel_id` 指向 `tasks.id`
4. 原有动态任务块继续使用 `type = task, task_source_type = task_item`
5. 四象限任务进入日程后使用 `type = task, task_source_type = task_pool`,不创建孤儿 `task_item`
6. 不扩展 `schedule_events.type``quadrant_task`,避免把任务来源语义混入日程块展示类型,也避免影响现有按 `event.Type == "task"` 判断的前端、冲突、撤销和预览逻辑。
执行计划待补:需要评估迁移 SQL、模型字段、schedule 读取映射、task_pool apply 链路以及历史 `type=task` 数据的默认来源回填策略。
### 12.6 主动观测链路形态
1. 主动调度主链路走固定 graph / service pipeline不进入 ReAct 工具循环。
2. graph 建议形态:
```text
ActiveScheduleTrigger
-> BuildContext
-> Observe
-> GenerateCandidates
-> LLMSelectAndExplain
-> WritePreview
-> Notify
```
3. `BuildContext / Observe / GenerateCandidates` 使用确定性后端逻辑,负责读取事实、生成诊断、校验候选合法性。
4. `LLMSelectAndExplain` 不调用工具,只直接消费后端给出的结构化结果,负责在候选中选择、生成用户可读解释,或选择 ask_user / close / notify_only。
5. 第一版不提供 ReAct 工具壳;后续如果用户在聊天中主动要求“帮我看看接下来 24 小时安排”,可以再加一个人工触发入口复用同一套 service。
6. API dry-run、API trigger、worker 后台触发都调用同一套主动调度 graph / service避免出现多套观测逻辑。
### 12.7 未完成补救的局部重排策略
1. 未完成补救里的局部重排不是整周 / 整任务类重排,而是只处理受影响的部分 `task_item`。
2. 局部重排输入:
- 起点:当前时刻对应的相对时间坐标。
- 终点:目标任务所属 `task_class.end_date`。
- 任务集:未完成任务及其被挤压的后继 item而不是整个 task_class 的全部 item。
3. 粗排约束调整:
- 原有周几偏好、时段偏好在正式粗排里偏硬约束。
- 局部补救中改成软偏好:优先落在偏好范围内。
- 如果偏好范围内排不下,允许打破偏好,把剩余任务继续追加到可用时间里。
4. 排序语义:
- 补救过程中可以为了找槽位临时调整候选顺序。
- 输出结果需要恢复这些受影响任务的原有顺序语义,避免把后继关系打乱。
5. 工程实现:
- 不直接修改现有全量粗排主函数,避免影响现有智能排程行为。
- 新增一条“局部重排 / 偏好软化粗排”实现。
- 时间格构建、空位扫描、冲突判断、节次候选等公共能力优先抽公共层复用;若短期无法完全抽出,需要在实现注释中说明原因,避免长期复制第三份粗排逻辑。
### 12.8 压缩融合兜底候选
1. 压缩融合只作为局部重排和延后结束都不可用时的兜底候选。
2. 第一版固定选择“下一个动态任务”作为融合对象,不做跨多个后继任务的复杂搜索。
3. 第一版固定比例为 50% / 50%
- 未完成任务压缩到融合块的一半时间。
- 下一个动态任务压缩到融合块的一半时间。
4. 压缩融合必须写清风险说明:两个任务都会被压缩,需要用户接受 rush 模式。
5. 压缩融合只生成预览,不允许后台自动执行。
### 12.9 主动调度裁决模式
1. 主动调度参考 `analyze_health` 的裁决模式,但不复用其节奏指标。
2. 后端固定执行:
```text
观测事实
-> 生成 issues
-> 收集 missing_info
-> 尝试生成合法 candidates
-> 构造 decision
```
3. `decision.action` 第一版包含:
- `close`:没有值得处理的问题,或问题已被现有日程覆盖。
- `ask_user`:缺少关键事实,或需要用户放宽边界才能继续。
- `notify_only`:有风险但无合法调整候选,也没有一个明确问题能继续推进。
- `select_candidate`:存在 1~3 个后端校验过的合法候选。
4. 基础裁决规则:
- 没有 issue -> `close`。
- 有 issue但缺关键事实 -> `ask_user`。
- 有 issue且有合法 candidates -> `select_candidate`。
- 有 issue但没有合法 candidates
- 若能通过一个明确问题继续推进 -> `ask_user`。
- 否则 -> `notify_only`。
5. LLM 职责边界:
- 不判断候选是否合法。
- 不自由构造新候选。
- `select_candidate` 时只在候选里选择最合适的一项,并生成用户可读解释。
- `ask_user / notify_only / close` 时只负责把后端裁决理由说清楚。
### 12.10 主动调度预览持久化边界
1. 主动调度预览新增独立持久化结构,建议命名为 `active_schedule_previews`。
2. 不复用 `agent_schedule_states` 作为主动调度预览主存储,原因:
- `agent_schedule_states` 强绑定 `conversation_id`,更适合会话内智能排程快照。
- 主动调度来自后台 worker可能没有会话上下文。
- 主动调度预览需要绑定 `trigger_id / candidate_id / expires_at / apply_status / notification_status`,语义与会话快照不同。
3. 展示协议可以复用:
- 抽通用 `SchedulePreviewChangeItem` / before-after schema。
- 现有会话排程预览后续也应补齐改前 / 改后能力。
- 主动调度预览复用同一套 change schema但独立存储和流转状态。
4. 这一路径更符合后续微服务拆分:
- `active-scheduler` 负责生成 `active_schedule_previews`。
- API 负责查询预览与接收确认。
- schedule 域负责正式应用。
### 12.11 预览快照、确认校验与 apply 结果
1. 第一版不保存全量 before 快照,避免主动调度预览表过重,也避免未来误用全量快照覆盖用户后续改动。
2. 第一版必须保存:
- `base_version`:生成预览时的日程基准版本,可使用 schedule hash、相关 event 更新时间摘要或等价版本标识。
- `before_summary`:只保存受影响范围的改前信息,例如受影响 event、空闲槽位、原 task_item 落位。
- `preview_changes`:候选准备做的改动,例如新增 task_pool 日程、移动 task_item、压缩融合预览。
3. `before_summary + preview_changes` 的用途:
- 给用户展示改前 / 改后。
- 用户确认时校验当前日程是否仍符合预览生成时的基准。
- 后续补撤销能力时,可以作为局部反向操作的基础。
4. 第一版 apply 策略:
- 用户确认前不改正式日程,因此不需要回滚。
- 用户确认后,正式应用必须放在事务里执行。
- 如果事务失败,正式日程不落库,只把预览标记为 `apply_failed` 并写入 `apply_error`。
5. 第一版不开放 apply 成功后的撤销按钮,不做整版快照覆盖式回滚。
6. apply 成功后轻量记录:
- `apply_status = applied`
- `applied_at`
- `applied_event_ids`
- 必要时记录 `applied_change_ids`
7. 后续若要支持撤销,应基于后端实际应用成功的 change 做局部反向操作,不能用 apply 前全量快照覆盖整张日程表,避免误删用户后续手动修改。
### 12.12 用户确认入口与聊天增强预留
1. MVP 不走现有 Agent resume 协议,新增主动调度详情页与主动调度确认 API。
2. 飞书通知只包含详情页链接,默认进入:
```text
/active-schedule/previews/:preview_id
```
3. 详情页体验采用“助手卡片式”设计,但后端不依赖完整 Agent Chat
- 顶部展示助手解释文案。
- 中间展示日程前后对比卡片。
- 展示触发原因、建议理由、风险和不调整后果。
- 支持用户拖动调整 after 方案。
- 支持确认应用、忽略 / 拒绝。
4. 拖动后的确认请求必须携带 `edited_changes`,后端重新校验,不信任前端坐标。
5. 确认 API 建议语义:
```text
POST /active-schedule/previews/:preview_id/confirm
```
请求包含 `candidate_id / action / edited_changes / idempotency_key`。
6. 后续增强可把同一个 `preview_id` 导入聊天页:
```text
/agent/chat?active_preview_id=xxx
```
聊天页加载同一份主动调度预览,由助手吐出解释消息和同一张日程卡片。
7. 聊天增强必须复用 `active_schedule_previews / preview_changes / confirm API`,不能另起一套确认和应用协议。
8. 若用户从详情页点击“和助手讨论”,再创建或绑定 `conversation_id`;主动调度预览本身的 `conversation_id` 保持可空。
### 12.13 预览过期策略
1. MVP 主动调度预览有效期为 1 小时。
2. `active_schedule_previews` 需要保存 `expires_at = generated_at + 1h`。
3. 超过 `expires_at` 后:
- 预览仍可查看历史说明。
- 不允许确认应用。
- 前端提示用户重新生成建议。
4. 确认 API 必须校验过期状态,避免用户对旧日程基准执行过期候选。
## 13. 共识详述与实现备忘
本节用于保存讨论过程中的关键推理,避免后续上下文压缩或换对话后只剩简短结论。
### 13.1 为什么后台触发不是全量定时扫描
主动调度的“定时”不是 worker 每隔几分钟全表扫 `tasks`,而是 task 本身在创建或更新时写入一条未来到期 job。
推荐语义:
1. task 创建时,如果有 `urgency_threshold_at`,写入或更新对应 `active_schedule_jobs`。
2. task 更新 `deadline_at / urgency_threshold_at` 时,直接 upsert 覆盖当前有效 job并刷新 `updated_at`。
3. task 完成时,不物理删除 job而是把未执行 job 标记为 `canceled`。
4. job 到期后worker 读取 due job再重新读取 task 真值:
- task 已完成 -> 标记 skipped / canceled不进入主动调度。
- task 已不满足重要且紧急条件 -> 标记 skipped。
- task 仍未完成且到达触发条件 -> 生成 `active_schedule.triggered`。
这样做的原因:
1. 避免后台全表扫描放大数据库压力。
2. 触发时间与四象限懒平移机制一致,统一使用 `urgency_threshold_at`,不再维护 `deadline_at - X` 这类主动调度私有阈值。
3. `canceled` 比物理删除更利于审计:后续可以解释“为什么这个任务没有触发主动调度”。
4. upsert 覆盖比“取消旧 job 再新建 job”简单MVP 足够用。
### 13.2 schedule 动态任务为什么不写定时 job
schedule 里的动态任务计划时间过去后,第一版默认按 `assumed_completed` 推进体验,不主动追问、不自动补救。
只有用户明确反馈未完成时,才进入主动调度链路。例如:
```text
刚才那个没做完
这项要延后
今天撑不住了
```
原因:
1. 自动追问会打扰用户,且用户没有反馈时系统无法确认是真没做还是没打卡。
2. 产品口径已经确定为“默认完成,用户反馈纠偏”。
3. 未完成补救属于用户显式触发,不应由时间流逝自动触发。
### 13.3 用户反馈触发信号为什么要持久化
用户反馈类触发信号不展示给前端,它是后端链路状态。建议使用 `active_schedule_triggers` 保存。
它的目的不是做产品卡片,而是:
1. 幂等:同一条“没做完”反馈不要重复触发两次。
2. 审计:用户问“为什么系统给我发飞书”,可以查到触发原因。
3. 排障worker 失败、跳过、重试都有状态可查。
4. 串链路:`trigger -> preview -> notification -> apply` 能通过 `trigger_id` 串起来。
建议字段方向:
```text
id
user_id
trigger_type # important_urgent_task / unfinished_feedback
target_type # task_pool / schedule_event / task_item
target_id
idempotency_key
payload_json
status # pending / processing / preview_generated / skipped / failed
created_at
updated_at
```
其中 `unfinished_feedback` 不做固定时间窗强去重,而是依赖 `feedback_id / idempotency_key` 幂等;这样用户连续反馈“还是没做完”不会被 30 分钟窗口误吞。
### 13.4 为什么 task_pool 不转成孤儿 task_item
我们讨论过“把四象限任务转成孤儿 task_item”来复用 `BatchApplyPlans`。最终不采用这个方案。
原因:
1. 现有 `task_items` 基本语义是归属于 `task_classes` 的任务块。
2. 虽然模型里 `CategoryID` 是指针,但 DAO / service 很多地方默认 task_item 有所属 task_class
- `BatchApplyPlans` 必须传 `TaskClassID`。
- `ValidateTaskItemIDsBelongToTaskClass` 用 `category_id` 做归属校验。
- `GetTaskClassIDByTaskItemID` 直接解引用 `CategoryID`。
- 预览分类、撤销、约束读取也默认 item 有父级。
3. 孤儿 task_item 会带来一串问题:
- 属于哪个任务类?
- 用哪个 task_class 的周几 / 时段偏好?
- 撤销后回到哪里?
- task 完成后怎么同步 task_item
- 前端任务类列表是否显示这个隐藏 item
最终方案是保留 task_pool 身份,让 schedule 引用 `tasks.id`。
### 13.5 为什么新增 `task_source_type`,而不是扩展 `schedule_events.type`
已确认在 `schedule_events` 上新增 `task_source_type`。
字段语义:
```text
schedule_events.type # 日程展示 / 占用类型course / task
schedule_events.task_source_type # 当 type=task 时的业务来源task_item / task_pool
schedule_events.rel_id # 指向对应来源表的 id
```
示例:
```text
动态任务块:
type = task
task_source_type = task_item
rel_id = task_items.id
四象限任务:
type = task
task_source_type = task_pool
rel_id = tasks.id
```
不扩展 `type = quadrant_task` 的原因:
1. `type` 现有语义更像“日历上展示/占用的类型”,四象限任务进入日程后仍然是任务块。
2. 现有代码和前端可能大量判断 `event.Type == "task"`;新增 `quadrant_task` 容易漏分支。
3. “四象限”是任务来源 / 优先级语义,不是日程块类型。
4. 后续如果还有 `manual_task / habit_task / external_task`,都塞进 `type` 会把字段语义撑乱。
历史数据回填策略后续执行计划里再细化:历史 `type=task` 可默认回填为 `task_item`,避免破坏旧动态任务块。
### 13.6 task_pool 任务进入日程的正式写入语义
用户确认 task_pool 候选后,不创建 task_item直接写正式日程
```text
schedule_events:
type = task
task_source_type = task_pool
rel_id = tasks.id
name = tasks.title
start_time / end_time = 绝对时间
schedules:
event_id = schedule_events.id
user_id
week
day_of_week
section
```
这意味着后续读取 schedule 时:
1. 如果 `type=task, task_source_type=task_item`,按旧链路关联 `task_items`。
2. 如果 `type=task, task_source_type=task_pool`,关联 `tasks`。
3. 如果 `task_source_type` 为空且 `type=task`,兼容历史数据,默认按 `task_item` 处理。
### 13.7 滚动 24 小时与节次粒度
MVP 按现有课程表坐标工作,滚动 24 小时需要映射到:
```text
week / day_of_week / section
```
正式应用时仍维护现有 schedule 的绝对时间与相对时间:
1. `schedule_events.start_time / end_time` 保存绝对时间。
2. `schedules.week / day_of_week / section` 保存相对节次原子格。
第一版任务长度:
1. 最小粒度统一为 1 节。
2. task_pool 任务预计长度初步限定在 1~4 节。
3. 由于当前 task 缺少预计耗时,第一版可以使用默认值或在候选里让用户确认。
4. 后续创建 task 时增加预计节数字段,由 AI 根据任务复杂度写入;主动调度只消费该字段,不在调度阶段重新判断复杂度。
### 13.8 task_pool 与 task_item 的偏好来源不同
偏好不能混用。
task_pool 任务:
1. 不属于 task_class。
2. 不存在 task_class 的周几 / 时段硬约束。
3. 按用户 memory 中注入的软偏好安排。
4. 如果 memory 偏好与 24 小时容量冲突,候选里说明“未满足偏好”的代价,而不是称为“打破 task_class 偏好”。
task_item
1. 属于 task_class。
2. 优先使用所属 task_class 的硬性偏好和约束。
3. 未完成补救场景下,部分 task_class 偏好会在局部重排里从硬约束软化为优先级。
### 13.9 主动观测为什么不进 ReAct
主动调度主链路走固定 graph / service pipeline不进入 ReAct 工具循环。
原因:
1. 这是后台 worker 触发的链路,不是用户实时开放式问答。
2. 它需要稳定、可幂等、可审计、可重试。
3. ReAct 适合开放探索;主动调度 MVP 的目标是减少开放性,让后端出选择题。
4. LLM 不应该自由查全窗、自由构造写库参数或直接 apply。
固定 graph 形态:
```text
ActiveScheduleTrigger
-> BuildContext
-> Observe
-> GenerateCandidates
-> LLMSelectAndExplain
-> WritePreview
-> Notify
```
其中:
1. `BuildContext / Observe / GenerateCandidates` 是确定性后端逻辑。
2. `LLMSelectAndExplain` 不调用工具,只消费结构化观测结果和候选。
3. API dry-run、API trigger、worker 后台触发都复用同一套 graph / service。
4. 后续若聊天里需要“帮我看看接下来 24 小时安排”,可以加人工触发入口,但也只是调用同一套 service不另写 ReAct 工具循环。
### 13.10 LLM 在选择题模式里的作用
后端给候选,并不代表 LLM 没有价值。后端负责合法性和硬约束LLM 负责软约束仲裁与表达。
后端擅长:
1. 判断时段是否冲突。
2. 判断候选是否越过 24 小时窗口。
3. 判断容量是否足够。
4. 判断正式写入参数是否合法。
5. 生成 1~3 个可执行候选。
LLM 擅长:
1. 结合用户刚才语气判断是否疲劳。
2. 在候选分数接近时,根据 memory 软偏好选更容易被接受的方案。
3. 把结构化风险翻译成用户能理解的解释。
4. ask_user 时问得更自然,不让用户觉得被系统打断。
5. notify_only 时用提醒语气,而不是制造焦虑。
边界:
1. LLM 不判断候选是否合法。
2. LLM 不自由构造新候选。
3. LLM 只在 `decision.action=select_candidate` 时从候选里选。
4. `close / ask_user / notify_only` 时LLM 只负责表达后端裁决理由。
一句话后端保证不出错LLM 负责更像人。
### 13.11 后端裁决如何参考 analyze_health
主动调度参考 `analyze_health` 的裁决模式,而不是复用其节奏指标。
主动调度自己的裁决流程:
```text
观测事实
-> 生成 issues
-> 收集 missing_info
-> 尝试生成合法 candidates
-> 构造 decision
```
裁决规则:
1. 没有 issue -> `close`。
2. 有 issue但缺关键事实 -> `ask_user`。
3. 有 issue且有合法 candidates -> `select_candidate`。
4. 有 issue但没有合法 candidates
- 如果能通过一个明确问题继续推进 -> `ask_user`。
- 如果问用户也不能立刻推进,只是需要提醒 -> `notify_only`。
例子:
1. `close`:重要且紧急 task 已经在 schedule 里,或任务已完成。
2. `ask_user`:用户说“刚才那个没做完”,但系统无法定位是哪条 schedule_event或容量不足需要问能否延后结束时间。
3. `select_candidate`:找到合法的加入日程 / 未完成补救 / 压缩融合候选。
4. `notify_only`:有风险但没有安全可挪的任务,也没有一个明确问题能继续推进。
### 13.12 未完成补救的局部重排不是全量粗排
未完成补救里的局部重排是“偏好软化版局部粗排”。
输入:
1. 起点:当前时刻对应的相对时间坐标。
2. 终点:目标任务所属 `task_class.end_date`。
3. 任务集:未完成任务及被挤压的后继 item。
4. 不传整个 task_class 的全部 item。
偏好处理:
1. 现有全量粗排里的周几 / 时段偏好偏硬约束。
2. 局部补救中改为软偏好。
3. 优先排偏好范围内。
4. 偏好范围内排不下时,允许打破偏好,把剩余任务继续追加到可用时间里。
顺序处理:
1. 搜索候选时可以为了找槽位临时调整。
2. 输出需要恢复受影响任务的原有顺序语义,避免打乱后继关系。
工程策略:
1. 不直接改现有全量粗排主函数,避免影响当前智能排程行为。
2. 新增局部重排实现。
3. 时间格、可用槽位、冲突判断、节次候选等能力优先抽公共层。
4. 如果短期必须 copy 逻辑,需要在注释里写清楚为什么暂时不能抽公共层,避免长期复制第三份。
### 13.13 压缩融合为什么是兜底
压缩融合不是理想调度,只是当局部重排和延后结束都不可用时的兜底预览。
MVP 规则:
1. 只找下一个动态任务作为融合对象。
2. 不跨多个后继任务搜索。
3. 默认 50% / 50%。
4. 必须向用户说明两个任务都会被压缩。
5. 只生成预览,不允许后台自动执行。
产品语义:
1. 它通常比直接跳过失败任务更好。
2. 但它会牺牲两个任务质量,所以必须用户确认。
3. 后续可以用优先级、DDL、预计耗时动态调整比例但第一版固定。
### 13.14 为什么主动调度预览不塞进 agent_schedule_states
`agent_schedule_states` 更像会话内智能排程快照,强绑定 `conversation_id`,用于粗排、拖拽、微调。
主动调度预览不同:
1. 可能没有 conversation。
2. 来自后台 worker。
3. 绑定 `trigger_id`。
4. 有 `candidate_id`。
5. 有 `expires_at`。
6. 有通知状态和 apply 状态。
7. 要做幂等、防重复触达、审计。
因此新增 `active_schedule_previews`,但抽通用 before/after 展示协议。
这意味着:
1. 持久化表不复用。
2. 展示 schema 可以复用。
3. 现有会话排程预览后续也应该补改前 / 改后能力。
4. 未来迁出 `active-scheduler` 时,预览表边界更清晰。
### 13.15 before_summary、preview_changes 和 applied_event_ids 的意义
MVP 不保存全量 before 快照,也不做成功后的撤销按钮。
必须保存:
```text
base_version
before_summary
preview_changes
```
原因:
1. 用户打开预览时能看到当时那版改前 / 改后,而不是重新查一个已经变化的当前日程。
2. 用户确认时能校验:生成预览时空的时段,现在是否仍然空。
3. 后续要做撤销时,有局部反向操作基础。
不保存全量 before 的原因:
1. 表会很重。
2. 后续如果误用全量快照覆盖日程,会抹掉用户 apply 后手动做的其它修改。
3. 真正安全的撤销应该按后端实际应用成功的 change 做局部反向操作,而不是整版覆写。
apply 成功后轻量记录:
```text
apply_status
applied_at
applied_event_ids
apply_error
```
这些当前用于审计和排障,不是为了第一版开放撤销按钮。
### 13.16 确认入口为什么先做详情页,而不是直接聊天页
聊天页效果最好,但第一版直接做完整聊天页会引入很多复杂度:
1. 后台 preview 没有天然 `conversation_id`。
2. 用户拖动卡片后,要同步到 Agent state 还是 active preview。
3. 用户一句“换晚点”是否重新跑 graph。
4. 聊天 SSE、卡片状态、确认状态要保持一致。
5. notification 和 agent channel 容易混边界。
折中方案:
1. MVP 做主动调度详情页。
2. UI 设计成助手卡片式:
- 顶部助手解释。
- 中间日程对比卡片。
- 支持拖动 after。
- 支持确认 / 忽略。
3. 后端仍走 `active_schedule_previews` 和确认 API不依赖完整 Agent Chat。
4. 后续可以通过 `/agent/chat?active_preview_id=xxx` 把同一份 preview 导入聊天页。
5. 聊天增强必须复用同一套 preview / changes / confirm API。
这样第一版稳定,后续聊天效果也能接上,不会重写链路。
### 13.17 预览 1 小时过期的具体语义
MVP 预览有效期为 1 小时:
```text
expires_at = generated_at + 1h
```
过期后:
1. 可以查看历史说明。
2. 不能确认应用。
3. 前端提示重新生成建议。
4. 确认 API 必须拒绝过期 preview。
原因主动调度候选依赖当时日程基准时间越久越可能被用户或其它流程改动。1 小时是 MVP 的安全折中。