Version: 0.4.6.dev.260307

feat: 🎯 新增 Token 估算与裁剪工具 * 在 `backend/pkg/token_budget.go` 中新增 Token 估算与裁剪工具 * 最大上下文 Token 数量设置为 224000，预留冗余 28000 * 从最旧消息开始裁剪，直到历史 Token 数量低于预算 * 根据裁剪后的历史消息数量动态计算 Redis 动态窗口大小 refactor: ♻️ 接入 Token 裁剪至 Service 主流程 * 在 `backend/service/agent.go` 中接入 Token 裁剪逻辑 * 先从历史数据获取（缓存未命中则查询数据库） * 按 Token 预算裁剪历史消息，裁剪后再喂模型 * 根据裁剪结果动态调整 Redis 会话窗口 refactor: ♻️ 改造 Redis 历史队列为会话级动态窗口 * 在 `backend/dao/agent-cache.go` 中新增 `SetSessionWindowSize` 与 `EnforceHistoryWindow` * `PushMessage` 和 `BackfillHistory` 方法使用会话动态窗口，而非固定 20 条历史消息 * 默认窗口大小提升至 128，但会被会话动态窗口值覆盖
2026-03-07 16:37:07 +08:00
parent 3f95d23376
commit 4906f814fd
6 changed files with 276 additions and 49 deletions
--- a/backend/agent/graph.go
+++ b/backend/agent/graph.go
@@ -13,7 +13,7 @@ import (
 	arkModel "github.com/volcengine/volcengine-go-sdk/service/arkruntime/model"
 )

-// StreamResponse 为 OpenAI/DeepSeek 兼容的流式 chunk 结构
+// StreamResponse 为 OpenAI/DeepSeek 兼容的流式 chunk 结构。
 type StreamResponse struct {
 	ID      string         `json:"id"`
 	Object  string         `json:"object"`
@@ -34,7 +34,7 @@ type StreamDelta struct {
 	ReasoningContent string `json:"reasoning_content,omitempty"`
 }

-// ToOpenAIStream 将单个 Eino chunk 转为 OpenAI 兼容 JSON
+// ToOpenAIStream 将单个 Eino chunk 转为 OpenAI 兼容 JSON。
 func ToOpenAIStream(chunk *schema.Message, requestID, modelName string, created int64, includeRole bool) (string, error) {
 	delta := StreamDelta{}
 	if includeRole {
@@ -67,7 +67,7 @@ func ToOpenAIStream(chunk *schema.Message, requestID, modelName string, created
 	return string(jsonBytes), nil
 }

-// ToOpenAIFinishStream 生成结束 chunk（finish_reason=stop）
+// ToOpenAIFinishStream 生成结束 chunk（finish_reason=stop）。
 func ToOpenAIFinishStream(requestID, modelName string, created int64) (string, error) {
 	stop := "stop"
 	dto := StreamResponse{