全部prompt独立

2026-01-21 22:24:31 +08:00
parent 1a1edde750
commit f44598a331
34 changed files with 690 additions and 1037 deletions
--- a/src/bw_learner/jargon_miner.py
+++ b/src/bw_learner/jargon_miner.py
@@ -11,7 +11,7 @@ from src.common.database.database_model import Jargon
 from src.llm_models.utils_model import LLMRequest
 from src.config.config import model_config, global_config
 from src.chat.message_receive.chat_stream import get_chat_manager
-from src.chat.utils.prompt_builder import Prompt, global_prompt_manager
+from src.prompt.prompt_manager import prompt_manager
 from src.bw_learner.learner_utils import (
    parse_chat_id_list,
    chat_id_list_contains,
@@ -45,100 +45,6 @@ def _is_single_char_jargon(content: str) -> bool:
    )


-# def _init_prompt() -> None:
-#     prompt_str = """
-# **聊天内容，其中的{bot_name}的发言内容是你自己的发言，[msg_id] 是消息ID**
-# {chat_str}
-
-# 请从上面这段聊天内容中提取"可能是黑话"的候选项（黑话/俚语/网络缩写/口头禅）。
-# - 必须为对话中真实出现过的短词或短语
-# - 必须是你无法理解含义的词语，没有明确含义的词语，请不要选择有明确含义，或者含义清晰的词语
-# - 排除：人名、@、表情包/图片中的内容、纯标点、常规功能词（如的、了、呢、啊等）
-# - 每个词条长度建议 2-8 个字符（不强制），尽量短小
-
-# 黑话必须为以下几种类型：
-# - 由字母构成的，汉语拼音首字母的简写词，例如：nb、yyds、xswl
-# - 英文词语的缩写，用英文字母概括一个词汇或含义，例如：CPU、GPU、API
-# - 中文词语的缩写，用几个汉字概括一个词汇或含义，例如：社死、内卷
-
-# 以 JSON 数组输出，元素为对象（严格按以下结构）：
-# 请你提取出可能的黑话，最多30个黑话，请尽量提取所有
-# [
-#   {{"content": "词条", "msg_id": "m12"}},  // msg_id 必须与上方聊天中展示的ID完全一致
-#   {{"content": "词条2", "msg_id": "m15"}}
-# ]
-
-# 现在请输出：
-# """
-#     Prompt(prompt_str, "extract_jargon_prompt")
-
-
-def _init_inference_prompts() -> None:
-    """初始化含义推断相关的prompt"""
-    # Prompt 1: 基于raw_content和content推断
-    prompt1_str = """
-**词条内容**
-{content}
-**词条出现的上下文。其中的{bot_name}的发言内容是你自己的发言**
-{raw_content_list}
-{previous_meaning_section}
-
-请根据上下文，推断"{content}"这个词条的含义。
- 如果这是一个黑话、俚语或网络用语，请推断其含义
- 如果含义明确（常规词汇），也请说明
- {bot_name} 的发言内容可能包含错误，请不要参考其发言内容
- 如果上下文信息不足，无法推断含义，请设置 no_info 为 true
-{previous_meaning_instruction}
-
-以 JSON 格式输出：
-{{
-  "meaning": "详细含义说明（包含使用场景、来源、具体解释等）",
-  "no_info": false
-}}
-注意：如果信息不足无法推断，请设置 "no_info": true，此时 meaning 可以为空字符串
-"""
-    Prompt(prompt1_str, "jargon_inference_with_context_prompt")
-
-    # Prompt 2: 仅基于content推断
-    prompt2_str = """
-**词条内容**
-{content}
-
-请仅根据这个词条本身，推断其含义。
- 如果这是一个黑话、俚语或网络用语，请推断其含义
- 如果含义明确（常规词汇），也请说明
-
-以 JSON 格式输出：
-{{
-  "meaning": "详细含义说明（包含使用场景、来源、具体解释等）"
-}}
-"""
-    Prompt(prompt2_str, "jargon_inference_content_only_prompt")
-
-    # Prompt 3: 比较两个推断结果
-    prompt3_str = """
-**推断结果1（基于上下文）**
-{inference1}
-
-**推断结果2（仅基于词条）**
-{inference2}
-
-请比较这两个推断结果，判断它们是否相同或类似。
- 如果两个推断结果的"含义"相同或类似，说明这个词条不是黑话（含义明确）
- 如果两个推断结果有差异，说明这个词条可能是黑话（需要上下文才能理解）
-
-以 JSON 格式输出：
-{{
-  "is_similar": true/false,
-  "reason": "判断理由"
-}}
-"""
-    Prompt(prompt3_str, "jargon_compare_inference_prompt")
-
-
-_init_inference_prompts()
-
-
 def _should_infer_meaning(jargon_obj: Jargon) -> bool:
    """
    判断是否需要进行含义推断
@@ -282,22 +188,18 @@ class JargonMiner:
            previous_meaning_section = ""
            previous_meaning_instruction = ""
            if current_count in [24, 60, 100] and previous_meaning:
-                previous_meaning_section = f"""
-**上一次推断的含义（仅供参考）**
-{previous_meaning}
-"""
+                previous_meaning_section = f"\n**上一次推断的含义（仅供参考）**\n{previous_meaning}"
                previous_meaning_instruction = (
                    "- 请参考上一次推断的含义，结合新的上下文信息，给出更准确或更新的推断结果"
                )

-            prompt1 = await global_prompt_manager.format_prompt(
-                "jargon_inference_with_context_prompt",
-                content=content,
-                bot_name=global_config.bot.nickname,
-                raw_content_list=raw_content_text,
-                previous_meaning_section=previous_meaning_section,
-                previous_meaning_instruction=previous_meaning_instruction,
-            )
+            prompt1_template = prompt_manager.get_prompt("jargon_inference_with_context_prompt")
+            prompt1_template.add_context("bot_name", global_config.bot.nickname)
+            prompt1_template.add_context("content", str(content))
+            prompt1_template.add_context("raw_content_list", raw_content_text)
+            prompt1_template.add_context("previous_meaning_section", previous_meaning_section)
+            prompt1_template.add_context("previous_meaning_instruction", previous_meaning_instruction)
+            prompt1 = await prompt_manager.render_prompt(prompt1_template)

            response1, _ = await self.llm_inference.generate_response_async(prompt1, temperature=0.3)
            if not response1:
@@ -331,10 +233,9 @@ class JargonMiner:
                return

            # 步骤2: 仅基于content推断
-            prompt2 = await global_prompt_manager.format_prompt(
-                "jargon_inference_content_only_prompt",
-                content=content,
-            )
+            prompt2_template = prompt_manager.get_prompt("jargon_inference_content_only_prompt")
+            prompt2_template.add_context("content", str(content))
+            prompt2 = await prompt_manager.render_prompt(prompt2_template)

            response2, _ = await self.llm_inference.generate_response_async(prompt2, temperature=0.3)
            if not response2:
@@ -374,11 +275,10 @@ class JargonMiner:
                logger.debug(f"jargon {content} 推断1结果: {response1}")

            # 步骤3: 比较两个推断结果
-            prompt3 = await global_prompt_manager.format_prompt(
-                "jargon_compare_inference_prompt",
-                inference1=json.dumps(inference1, ensure_ascii=False),
-                inference2=json.dumps(inference2, ensure_ascii=False),
-            )
+            prompt3_template = prompt_manager.get_prompt("jargon_compare_inference_prompt")
+            prompt3_template.add_context("inference1", json.dumps(inference1, ensure_ascii=False))
+            prompt3_template.add_context("inference2", json.dumps(inference2, ensure_ascii=False))
+            prompt3 = await prompt_manager.render_prompt(prompt3_template)

            if global_config.debug.show_jargon_prompt:
                logger.info(f"jargon {content} 比较提示词: {prompt3}")
@@ -449,9 +349,7 @@ class JargonMiner:
            traceback.print_exc()

    async def process_extracted_entries(
-        self, 
-        entries: List[Dict[str, List[str]]],
-        person_name_filter: Optional[Callable[[str], bool]] = None
+        self, entries: List[Dict[str, List[str]]], person_name_filter: Optional[Callable[[str], bool]] = None
    ) -> None:
        """
        处理已提取的黑话条目（从 expression_learner 路由过来的）
@@ -468,14 +366,14 @@ class JargonMiner:
            merged_entries: OrderedDict[str, Dict[str, List[str]]] = OrderedDict()
            for entry in entries:
                content_key = entry["content"]
-                
+
                # 检查是否包含人物名称
                # logger.info(f"process_extracted_entries 检查是否包含人物名称: {content_key}")
                # logger.info(f"person_name_filter: {person_name_filter}")
                if person_name_filter and person_name_filter(content_key):
                    logger.info(f"process_extracted_entries 跳过包含人物名称的黑话: {content_key}")
                    continue
-                
+
                raw_list = entry.get("raw_content", []) or []
                if content_key in merged_entries:
                    merged_entries[content_key]["raw_content"].extend(raw_list)