Merge branch 'dev' of https://github.com/Mai-with-u/MaiBot into dev

2025-12-15 00:07:31 +08:00
parent 3db9fafe65 74a2f4346a
commit 6e9baff87f
85 changed files with 3462 additions and 1901 deletions
--- a/src/bw_learner/expression_learner.py
+++ b/src/bw_learner/expression_learner.py
@@ -3,7 +3,7 @@ import json
 import os
 import re
 import asyncio
-from typing import List, Optional, Tuple, Any, Dict, Callable
+from typing import List, Optional, Tuple, Any, Dict
 from src.common.logger import get_logger
 from src.common.database.database_model import Expression
 from src.llm_models.utils_model import LLMRequest
@@ -13,7 +13,12 @@ from src.chat.utils.chat_message_builder import (
 )
 from src.chat.utils.prompt_builder import Prompt, global_prompt_manager
 from src.chat.message_receive.chat_stream import get_chat_manager
-from src.bw_learner.learner_utils import filter_message_content, is_bot_message, build_context_paragraph, contains_bot_self_name
+from src.bw_learner.learner_utils import (
+    filter_message_content,
+    is_bot_message,
+    build_context_paragraph,
+    contains_bot_self_name,
+)
 from src.bw_learner.jargon_miner import miner_manager
 from json_repair import repair_json

@@ -77,8 +82,6 @@ def init_prompt() -> None:
    Prompt(learn_style_prompt, "learn_style_prompt")


-
-
 class ExpressionLearner:
    def __init__(self, chat_id: str) -> None:
        self.express_learn_model: LLMRequest = LLMRequest(
@@ -95,20 +98,20 @@ class ExpressionLearner:
        self._learning_lock = asyncio.Lock()

    async def learn_and_store(
-        self, 
+        self,
        messages: List[Any],
-        person_name_filter: Optional[Callable[[str], bool]] = None,
    ) -> List[Tuple[str, str, str]]:
        """
        学习并存储表达方式
-        
+
        Args:
            messages: 外部传入的消息列表（必需）
-            person_name_filter: 可选的过滤函数，用于检查内容是否包含人物名称
+            num: 学习数量
+            timestamp_start: 学习开始的时间戳，如果为None则使用self.last_learning_time
        """
        if not messages:
            return None
-        
+
        random_msg = messages

        # 学习用（开启行编号，便于溯源）
@@ -134,37 +137,26 @@ class ExpressionLearner:
        jargon_entries: List[Tuple[str, str]]  # (content, source_id)
        expressions, jargon_entries = self.parse_expression_response(response)
        expressions = self._filter_self_reference_styles(expressions)
-        
-        # 过滤掉包含人物名称的表达方式
-        if person_name_filter:
-            filtered_expressions = []
-            for situation, style, source_id in expressions:
-                # 检查 situation 和 style 是否包含人物名称
-                if person_name_filter(situation) or person_name_filter(style):
-                    logger.info(f"跳过包含人物名称的表达方式: situation={situation}, style={style}")
-                    continue
-                filtered_expressions.append((situation, style, source_id))
-            expressions = filtered_expressions
-        
+
        # 检查表达方式数量，如果超过10个则放弃本次表达学习
        if len(expressions) > 10:
            logger.info(f"表达方式提取数量超过10个（实际{len(expressions)}个），放弃本次表达学习")
            expressions = []
-        
+
        # 检查黑话数量，如果超过30个则放弃本次黑话学习
        if len(jargon_entries) > 30:
            logger.info(f"黑话提取数量超过30个（实际{len(jargon_entries)}个），放弃本次黑话学习")
            jargon_entries = []
-        
+
        # 处理黑话条目，路由到 jargon_miner（即使没有表达方式也要处理黑话）
        if jargon_entries:
-            await self._process_jargon_entries(jargon_entries, random_msg, person_name_filter)
-        
+            await self._process_jargon_entries(jargon_entries, random_msg)
+
        # 如果没有表达方式，直接返回
        if not expressions:
            logger.info("过滤后没有可用的表达方式（style 与机器人名称重复）")
            return []
-        
+
        logger.info(f"学习的prompt: {prompt}")
        logger.info(f"学习的expressions: {expressions}")
        logger.info(f"学习的jargon_entries: {jargon_entries}")
@@ -186,18 +178,17 @@ class ExpressionLearner:

            # 当前行的原始内容
            current_msg = random_msg[line_index]
-            
+
            # 过滤掉从bot自己发言中提取到的表达方式
            if is_bot_message(current_msg):
                continue
-            
+
            context = filter_message_content(current_msg.processed_plain_text or "")
            if not context:
                continue

            filtered_expressions.append((situation, style, context))
-        
-        
+
        learnt_expressions = filtered_expressions

        if learnt_expressions is None:
@@ -281,37 +272,38 @@ class ExpressionLearner:
            # 如果解析失败，尝试修复中文引号问题
            # 使用状态机方法，在 JSON 字符串值内部将中文引号替换为转义的英文引号
            try:
+
                def fix_chinese_quotes_in_json(text):
                    """使用状态机修复 JSON 字符串值中的中文引号"""
                    result = []
                    i = 0
                    in_string = False
                    escape_next = False
-                    
+
                    while i < len(text):
                        char = text[i]
-                        
+
                        if escape_next:
                            # 当前字符是转义字符后的字符，直接添加
                            result.append(char)
                            escape_next = False
                            i += 1
                            continue
-                        
-                        if char == '\\':
+
+                        if char == "\\":
                            # 转义字符
                            result.append(char)
                            escape_next = True
                            i += 1
                            continue
-                        
+
                        if char == '"' and not escape_next:
                            # 遇到英文引号，切换字符串状态
                            in_string = not in_string
                            result.append(char)
                            i += 1
                            continue
-                        
+
                        if in_string:
                            # 在字符串值内部，将中文引号替换为转义的英文引号
                            if char == '"':  # 中文左引号 U+201C
@@ -323,13 +315,13 @@ class ExpressionLearner:
                        else:
                            # 不在字符串内，直接添加
                            result.append(char)
-                        
+
                        i += 1
-                    
-                    return ''.join(result)
-                
+
+                    return "".join(result)
+
                fixed_raw = fix_chinese_quotes_in_json(raw)
-                
+
                # 再次尝试解析
                if fixed_raw.startswith("[") and fixed_raw.endswith("]"):
                    parsed = json.loads(fixed_raw)
@@ -357,12 +349,12 @@ class ExpressionLearner:
        for item in parsed_list:
            if not isinstance(item, dict):
                continue
-            
+
            # 检查是否是表达方式条目（有 situation 和 style）
            situation = str(item.get("situation", "")).strip()
            style = str(item.get("style", "")).strip()
            source_id = str(item.get("source_id", "")).strip()
-            
+
            if situation and style and source_id:
                # 表达方式条目
                expressions.append((situation, style, source_id))
@@ -511,75 +503,64 @@ class ExpressionLearner:
            logger.error(f"概括表达情境失败: {e}")
        return None

-    async def _process_jargon_entries(
-        self, 
-        jargon_entries: List[Tuple[str, str]], 
-        messages: List[Any],
-        person_name_filter: Optional[Callable[[str], bool]] = None
-    ) -> None:
+    async def _process_jargon_entries(self, jargon_entries: List[Tuple[str, str]], messages: List[Any]) -> None:
        """
        处理从 expression learner 提取的黑话条目，路由到 jargon_miner
-        
+
        Args:
            jargon_entries: 黑话条目列表，每个元素是 (content, source_id)
            messages: 消息列表，用于构建上下文
-            person_name_filter: 可选的过滤函数，用于检查内容是否包含人物名称
        """
        if not jargon_entries or not messages:
            return
-        
+
        # 获取 jargon_miner 实例
        jargon_miner = miner_manager.get_miner(self.chat_id)
-        
+
        # 构建黑话条目格式，与 jargon_miner.run_once 中的格式一致
        entries: List[Dict[str, List[str]]] = []
-        
+
        for content, source_id in jargon_entries:
            content = content.strip()
            if not content:
                continue
-            
+
            # 检查是否包含机器人名称
            if contains_bot_self_name(content):
                logger.info(f"跳过包含机器人昵称/别名的黑话: {content}")
                continue
-            
-            # 检查是否包含人物名称
-            if person_name_filter and person_name_filter(content):
-                logger.info(f"跳过包含人物名称的黑话: {content}")
-                continue
-            
+
            # 解析 source_id
            source_id_str = (source_id or "").strip()
            if not source_id_str.isdigit():
                logger.warning(f"黑话条目 source_id 无效: content={content}, source_id={source_id_str}")
                continue
-            
+
            # build_anonymous_messages 的编号从 1 开始
            line_index = int(source_id_str) - 1
            if line_index < 0 or line_index >= len(messages):
                logger.warning(f"黑话条目 source_id 超出范围: content={content}, source_id={source_id_str}")
                continue
-            
+
            # 检查是否是机器人自己的消息
            target_msg = messages[line_index]
            if is_bot_message(target_msg):
                logger.info(f"跳过引用机器人自身消息的黑话: content={content}, source_id={source_id_str}")
                continue
-            
+
            # 构建上下文段落
            context_paragraph = build_context_paragraph(messages, line_index)
            if not context_paragraph:
                logger.warning(f"黑话条目上下文为空: content={content}, source_id={source_id_str}")
                continue
-            
+
            entries.append({"content": content, "raw_content": [context_paragraph]})
-        
+
        if not entries:
            return
-        
+
        # 调用 jargon_miner 处理这些条目
-        await jargon_miner.process_extracted_entries(entries, person_name_filter)
+        await jargon_miner.process_extracted_entries(entries)


 init_prompt()
--- a/src/bw_learner/expression_reflector.py
+++ b/src/bw_learner/expression_reflector.py
@@ -82,9 +82,7 @@ class ExpressionReflector:
            # 获取未检查的表达
            try:
                logger.info("[Expression Reflection] 查询未检查且未拒绝的表达")
-                expressions = (
-                    Expression.select().where((~Expression.checked) & (~Expression.rejected)).limit(50)
-                )
+                expressions = Expression.select().where((~Expression.checked) & (~Expression.rejected)).limit(50)

                expr_list = list(expressions)
                logger.info(f"[Expression Reflection] 找到 {len(expr_list)} 个候选表达")
@@ -147,7 +145,7 @@ expression_reflector_manager = ExpressionReflectorManager()

 async def _check_tracker_exists(operator_config: str) -> bool:
    """检查指定 Operator 是否已有活跃的 Tracker"""
-    from src.express.reflect_tracker import reflect_tracker_manager
+    from src.bw_learner.reflect_tracker import reflect_tracker_manager

    chat_manager = get_chat_manager()
    chat_stream = None
@@ -242,7 +240,7 @@ async def _send_to_operator(operator_config: str, text: str, expr: Expression):
    stream_id = chat_stream.stream_id

    # 注册 Tracker
-    from src.express.reflect_tracker import ReflectTracker, reflect_tracker_manager
+    from src.bw_learner.reflect_tracker import ReflectTracker, reflect_tracker_manager

    tracker = ReflectTracker(chat_stream=chat_stream, expression=expr, created_time=time.time())
    reflect_tracker_manager.add_tracker(stream_id, tracker)
--- a/src/bw_learner/expression_selector.py
+++ b/src/bw_learner/expression_selector.py
@@ -128,9 +128,7 @@ class ExpressionSelector:

            # 查询所有相关chat_id的表达方式，排除 rejected=1 的，且只选择 count > 1 的
            style_query = Expression.select().where(
-                (Expression.chat_id.in_(related_chat_ids)) 
-                & (~Expression.rejected)
-                & (Expression.count > 1)
+                (Expression.chat_id.in_(related_chat_ids)) & (~Expression.rejected) & (Expression.count > 1)
            )

            style_exprs = [
@@ -150,12 +148,15 @@ class ExpressionSelector:
            # 要求至少有10个 count > 1 的表达方式才进行选择
            min_required = 10
            if len(style_exprs) < min_required:
-                logger.info(f"聊天流 {chat_id} count > 1 的表达方式不足 {min_required} 个（实际 {len(style_exprs)} 个），不进行选择")
+                logger.info(
+                    f"聊天流 {chat_id} count > 1 的表达方式不足 {min_required} 个（实际 {len(style_exprs)} 个），不进行选择"
+                )
                return [], []

            # 固定选择5个
            select_count = 5
            import random
+
            selected_style = random.sample(style_exprs, select_count)

            # 更新last_active_time
@@ -163,7 +164,9 @@ class ExpressionSelector:
                self.update_expressions_last_active_time(selected_style)

            selected_ids = [expr["id"] for expr in selected_style]
-            logger.debug(f"think_level=0: 从 {len(style_exprs)} 个 count>1 的表达方式中随机选择了 {len(selected_style)} 个")
+            logger.debug(
+                f"think_level=0: 从 {len(style_exprs)} 个 count>1 的表达方式中随机选择了 {len(selected_style)} 个"
+            )
            return selected_style, selected_ids

        except Exception as e:
@@ -186,9 +189,7 @@ class ExpressionSelector:
            related_chat_ids = self.get_related_chat_ids(chat_id)

            # 优化：一次性查询所有相关chat_id的表达方式，排除 rejected=1 的表达
-            style_query = Expression.select().where(
-                (Expression.chat_id.in_(related_chat_ids)) & (~Expression.rejected)
-            )
+            style_query = Expression.select().where((Expression.chat_id.in_(related_chat_ids)) & (~Expression.rejected))

            style_exprs = [
                {
@@ -246,7 +247,9 @@ class ExpressionSelector:

        # 使用classic模式（随机选择+LLM选择）
        logger.debug(f"使用classic模式为聊天流 {chat_id} 选择表达方式，think_level={think_level}")
-        return await self._select_expressions_classic(chat_id, chat_info, max_num, target_message, reply_reason, think_level)
+        return await self._select_expressions_classic(
+            chat_id, chat_info, max_num, target_message, reply_reason, think_level
+        )

    async def _select_expressions_classic(
        self,
@@ -275,14 +278,12 @@ class ExpressionSelector:
            # think_level == 0: 只选择 count > 1 的项目，随机选10个，不进行LLM选择
            if think_level == 0:
                return self._select_expressions_simple(chat_id, max_num)
-            
+
            # think_level == 1: 先选高count，再从所有表达方式中随机抽样
            # 1. 获取所有表达方式并分离 count > 1 和 count <= 1 的
            related_chat_ids = self.get_related_chat_ids(chat_id)
-            style_query = Expression.select().where(
-                (Expression.chat_id.in_(related_chat_ids)) & (~Expression.rejected)
-            )
-            
+            style_query = Expression.select().where((Expression.chat_id.in_(related_chat_ids)) & (~Expression.rejected))
+
            all_style_exprs = [
                {
                    "id": expr.id,
@@ -299,29 +300,33 @@ class ExpressionSelector:

            # 分离 count > 1 和 count <= 1 的表达方式
            high_count_exprs = [expr for expr in all_style_exprs if (expr.get("count", 1) or 1) > 1]
-            
+
            # 根据 think_level 设置要求（仅支持 0/1，0 已在上方返回）
            min_high_count = 10
            min_total_count = 10
            select_high_count = 5
            select_random_count = 5
-            
+
            # 检查数量要求
            if len(high_count_exprs) < min_high_count:
-                logger.info(f"聊天流 {chat_id} count > 1 的表达方式不足 {min_high_count} 个（实际 {len(high_count_exprs)} 个），不进行选择")
+                logger.info(
+                    f"聊天流 {chat_id} count > 1 的表达方式不足 {min_high_count} 个（实际 {len(high_count_exprs)} 个），不进行选择"
+                )
                return [], []
-            
+
            if len(all_style_exprs) < min_total_count:
-                logger.info(f"聊天流 {chat_id} 总表达方式不足 {min_total_count} 个（实际 {len(all_style_exprs)} 个），不进行选择")
+                logger.info(
+                    f"聊天流 {chat_id} 总表达方式不足 {min_total_count} 个（实际 {len(all_style_exprs)} 个），不进行选择"
+                )
                return [], []
-            
+
            # 先选取高count的表达方式
            selected_high = weighted_sample(high_count_exprs, min(len(high_count_exprs), select_high_count))
-            
+
            # 然后从所有表达方式中随机抽样（使用加权抽样）
            remaining_num = select_random_count
            selected_random = weighted_sample(all_style_exprs, min(len(all_style_exprs), remaining_num))
-            
+
            # 合并候选池（去重，避免重复）
            candidate_exprs = selected_high.copy()
            candidate_ids = {expr["id"] for expr in candidate_exprs}
@@ -329,9 +334,10 @@ class ExpressionSelector:
                if expr["id"] not in candidate_ids:
                    candidate_exprs.append(expr)
                    candidate_ids.add(expr["id"])
-            
+
            # 打乱顺序，避免高count的都在前面
            import random
+
            random.shuffle(candidate_exprs)

            # 2. 构建所有表达方式的索引和情境列表
@@ -351,7 +357,7 @@ class ExpressionSelector:
            all_situations_str = "\n".join(all_situations)

            if target_message:
-                target_message_str = f"，现在你想要对这条消息进行回复：\"{target_message}\""
+                target_message_str = f'，现在你想要对这条消息进行回复："{target_message}"'
                target_message_extra_block = "4.考虑你要回复的目标消息"
            else:
                target_message_str = ""
--- a/src/bw_learner/jargon_explainer.py
+++ b/src/bw_learner/jargon_explainer.py
@@ -8,7 +8,12 @@ from src.llm_models.utils_model import LLMRequest
 from src.config.config import model_config, global_config
 from src.chat.utils.prompt_builder import Prompt, global_prompt_manager
 from src.bw_learner.jargon_miner import search_jargon
-from src.bw_learner.learner_utils import is_bot_message, contains_bot_self_name, parse_chat_id_list, chat_id_list_contains
+from src.bw_learner.learner_utils import (
+    is_bot_message,
+    contains_bot_self_name,
+    parse_chat_id_list,
+    chat_id_list_contains,
+)

 logger = get_logger("jargon")

@@ -357,4 +362,4 @@ async def retrieve_concepts_with_jargon(concepts: List[str], chat_id: str) -> st

    if results:
        return "【概念检索结果】\n" + "\n".join(results) + "\n"
-    return ""
+    return ""
--- a/src/bw_learner/jargon_miner.py
+++ b/src/bw_learner/jargon_miner.py
@@ -1,4 +1,3 @@
-import time
 import json
 import asyncio
 import random
@@ -14,7 +13,6 @@ from src.config.config import model_config, global_config
 from src.chat.message_receive.chat_stream import get_chat_manager
 from src.chat.utils.chat_message_builder import (
    build_readable_messages_with_id,
-    get_raw_msg_by_timestamp_with_chat_inclusive,
 )
 from src.chat.utils.prompt_builder import Prompt, global_prompt_manager
 from src.bw_learner.learner_utils import (
@@ -33,23 +31,23 @@ logger = get_logger("jargon")
 def _is_single_char_jargon(content: str) -> bool:
    """
    判断是否是单字黑话（单个汉字、英文或数字）
-    
+
    Args:
        content: 词条内容
-        
+
    Returns:
        bool: 如果是单字黑话返回True，否则返回False
    """
    if not content or len(content) != 1:
        return False
-    
+
    char = content[0]
    # 判断是否是单个汉字、单个英文字母或单个数字
    return (
-        '\u4e00' <= char <= '\u9fff' or  # 汉字
-        'a' <= char <= 'z' or            # 小写字母
-        'A' <= char <= 'Z' or            # 大写字母
-        '0' <= char <= '9'               # 数字
+        "\u4e00" <= char <= "\u9fff"  # 汉字
+        or "a" <= char <= "z"  # 小写字母
+        or "A" <= char <= "Z"  # 大写字母
+        or "0" <= char <= "9"  # 数字
    )


@@ -195,7 +193,7 @@ class JargonMiner:
            model_set=model_config.model_task_config.utils,
            request_type="jargon.extract",
        )
-        
+
        self.llm_inference = LLMRequest(
            model_set=model_config.model_task_config.utils,
            request_type="jargon.inference",
@@ -207,7 +205,7 @@ class JargonMiner:
        self.stream_name = stream_name if stream_name else self.chat_id
        self.cache_limit = 50
        self.cache: OrderedDict[str, None] = OrderedDict()
-        
+
        # 黑话提取锁，防止并发执行
        self._extraction_lock = asyncio.Lock()

@@ -299,17 +297,19 @@ class JargonMiner:
            # 获取当前count和上一次的meaning
            current_count = jargon_obj.count or 0
            previous_meaning = jargon_obj.meaning or ""
-            
+
            # 当count为24, 60时，随机移除一半的raw_content项目
            if current_count in [24, 60] and len(raw_content_list) > 1:
                # 计算要保留的数量（至少保留1个）
                keep_count = max(1, len(raw_content_list) // 2)
                raw_content_list = random.sample(raw_content_list, keep_count)
-                logger.info(f"jargon {content} count={current_count}，随机移除后剩余 {len(raw_content_list)} 个raw_content项目")
+                logger.info(
+                    f"jargon {content} count={current_count}，随机移除后剩余 {len(raw_content_list)} 个raw_content项目"
+                )

            # 步骤1: 基于raw_content和content推断
            raw_content_text = "\n".join(raw_content_list)
-            
+
            # 当count为24, 60, 100时，在prompt中放入上一次推断出的meaning作为参考
            previous_meaning_section = ""
            previous_meaning_instruction = ""
@@ -318,8 +318,10 @@ class JargonMiner:
 **上一次推断的含义（仅供参考）**
 {previous_meaning}
 """
-                previous_meaning_instruction = "- 请参考上一次推断的含义，结合新的上下文信息，给出更准确或更新的推断结果"
-            
+                previous_meaning_instruction = (
+                    "- 请参考上一次推断的含义，结合新的上下文信息，给出更准确或更新的推断结果"
+                )
+
            prompt1 = await global_prompt_manager.format_prompt(
                "jargon_inference_with_context_prompt",
                content=content,
@@ -485,7 +487,7 @@ class JargonMiner:
    ) -> None:
        """
        运行一次黑话提取
-        
+
        Args:
            messages: 外部传入的消息列表（必需）
            person_name_filter: 可选的过滤函数，用于检查内容是否包含人物名称
@@ -660,7 +662,9 @@ class JargonMiner:
                            if obj.raw_content:
                                try:
                                    existing_raw_content = (
-                                        json.loads(obj.raw_content) if isinstance(obj.raw_content, str) else obj.raw_content
+                                        json.loads(obj.raw_content)
+                                        if isinstance(obj.raw_content, str)
+                                        else obj.raw_content
                                    )
                                    if not isinstance(existing_raw_content, list):
                                        existing_raw_content = [existing_raw_content] if existing_raw_content else []
@@ -740,14 +744,14 @@ class JargonMiner:
    ) -> None:
        """
        处理已提取的黑话条目（从 expression_learner 路由过来的）
-        
+
        Args:
            entries: 黑话条目列表，每个元素格式为 {"content": "...", "raw_content": [...]}
            person_name_filter: 可选的过滤函数，用于检查内容是否包含人物名称
        """
        if not entries:
            return
-        
+
        try:
            # 去重并合并raw_content（按 content 聚合）
            merged_entries: OrderedDict[str, Dict[str, List[str]]] = OrderedDict()
@@ -899,8 +903,6 @@ class JargonMinerManager:
 miner_manager = JargonMinerManager()


-
-
 def search_jargon(
    keyword: str, chat_id: Optional[str] = None, limit: int = 10, case_sensitive: bool = False, fuzzy: bool = True
 ) -> List[Dict[str, str]]:
--- a/src/bw_learner/message_recorder.py
+++ b/src/bw_learner/message_recorder.py
@@ -1,62 +1,39 @@
 import time
 import asyncio
-from typing import List, Any, Optional
-from collections import OrderedDict
-from dataclasses import dataclass
+from typing import List, Any
 from src.common.logger import get_logger
 from src.config.config import global_config
 from src.chat.message_receive.chat_stream import get_chat_manager
 from src.chat.utils.chat_message_builder import get_raw_msg_by_timestamp_with_chat_inclusive
 from src.bw_learner.expression_learner import expression_learner_manager
 from src.bw_learner.jargon_miner import miner_manager
-from src.person_info.person_info import Person

 logger = get_logger("bw_learner")


-@dataclass
-class PersonInfo:
-    """参与聊天的人物信息"""
-    user_id: str
-    user_platform: str
-    user_nickname: str
-    user_cardname: Optional[str]
-    person_name: str
-    last_seen_time: float  # 最后发言时间
-    
-    def get_unique_key(self) -> str:
-        """获取唯一标识（用于去重）"""
-        return f"{self.user_platform}:{self.user_id}"
-
-
 class MessageRecorder:
    """
    统一的消息记录器，负责管理时间窗口和消息提取，并将消息分发给 expression_learner 和 jargon_miner
    """
-    
+
    def __init__(self, chat_id: str) -> None:
        self.chat_id = chat_id
        self.chat_stream = get_chat_manager().get_stream(chat_id)
        self.chat_name = get_chat_manager().get_stream_name(chat_id) or chat_id
-        
+
        # 维护每个chat的上次提取时间
        self.last_extraction_time: float = time.time()
-        
+
        # 提取锁，防止并发执行
        self._extraction_lock = asyncio.Lock()
-        
-        # 维护参与该chat_id的人物列表（最多30个，使用OrderedDict保持插入顺序）
-        # key: f"{platform}:{user_id}", value: PersonInfo
-        self._person_list: OrderedDict[str, PersonInfo] = OrderedDict()
-        self._max_person_count = 30
-        
+
        # 获取 expression 和 jargon 的配置参数
        self._init_parameters()
-        
+
        # 获取 expression_learner 和 jargon_miner 实例
        self.expression_learner = expression_learner_manager.get_expression_learner(chat_id)
        self.jargon_miner = miner_manager.get_miner(chat_id)
-    
+
    def _init_parameters(self) -> None:
        """初始化提取参数"""
        # 获取 expression 配置
@@ -65,17 +42,17 @@ class MessageRecorder:
        )
        self.min_messages_for_extraction = 30
        self.min_extraction_interval = 60
-        
+
        logger.debug(
            f"MessageRecorder 初始化: chat_id={self.chat_id}, "
            f"min_messages={self.min_messages_for_extraction}, "
            f"min_interval={self.min_extraction_interval}"
        )
-    
+
    def should_trigger_extraction(self) -> bool:
        """
        检查是否应该触发消息提取
-        
+
        Returns:
            bool: 是否应该触发提取
        """
@@ -83,19 +60,19 @@ class MessageRecorder:
        time_diff = time.time() - self.last_extraction_time
        if time_diff < self.min_extraction_interval:
            return False
-        
+
        # 检查消息数量
        recent_messages = get_raw_msg_by_timestamp_with_chat_inclusive(
            chat_id=self.chat_id,
            timestamp_start=self.last_extraction_time,
            timestamp_end=time.time(),
        )
-        
+
        if not recent_messages or len(recent_messages) < self.min_messages_for_extraction:
            return False
-        
+
        return True
-    
+
    async def extract_and_distribute(self) -> None:
        """
        提取消息并分发给 expression_learner 和 jargon_miner
@@ -105,46 +82,40 @@ class MessageRecorder:
            # 在锁内检查，避免并发触发
            if not self.should_trigger_extraction():
                return
-            
+
            # 检查 chat_stream 是否存在
            if not self.chat_stream:
                return
-            
+
            # 记录本次提取的时间窗口，避免重复提取
            extraction_start_time = self.last_extraction_time
            extraction_end_time = time.time()
-            
+
            # 立即更新提取时间，防止并发触发
            self.last_extraction_time = extraction_end_time
-            
+
            try:
                logger.info(f"在聊天流 {self.chat_name} 开始统一消息提取和分发")
-                
+
                # 拉取提取窗口内的消息
                messages = get_raw_msg_by_timestamp_with_chat_inclusive(
                    chat_id=self.chat_id,
                    timestamp_start=extraction_start_time,
                    timestamp_end=extraction_end_time,
                )
-                
+
                if not messages:
                    logger.debug(f"聊天流 {self.chat_name} 没有新消息，跳过提取")
                    return
-                
+
                # 按时间排序，确保顺序一致
                messages = sorted(messages, key=lambda msg: msg.time or 0)
-                
-                # 更新参与聊天的人物列表
-                self._update_person_list(messages)
-                
-                logger.info(f"聊天流 {self.chat_name} 的人物列表: {self._person_list}")
-                
+
                logger.info(
                    f"聊天流 {self.chat_name} 提取到 {len(messages)} 条消息，"
                    f"时间窗口: {extraction_start_time:.2f} - {extraction_end_time:.2f}"
                )
-                
-                
+
                # 分别触发 expression_learner 和 jargon_miner 的处理
                # 传递提取的消息，避免它们重复获取
                # 触发 expression 学习（如果启用）
@@ -152,40 +123,35 @@ class MessageRecorder:
                    asyncio.create_task(
                        self._trigger_expression_learning(extraction_start_time, extraction_end_time, messages)
                    )
-                
+
                # 触发 jargon 提取（如果启用），传递消息
                # if self.enable_jargon_learning:
-                    # asyncio.create_task(
-                        # self._trigger_jargon_extraction(extraction_start_time, extraction_end_time, messages)
-                    # )
-                
+                # asyncio.create_task(
+                # self._trigger_jargon_extraction(extraction_start_time, extraction_end_time, messages)
+                # )
+
            except Exception as e:
                logger.error(f"为聊天流 {self.chat_name} 提取和分发消息失败: {e}")
                import traceback
+
                traceback.print_exc()
                # 即使失败也保持时间戳更新，避免频繁重试
-    
+
    async def _trigger_expression_learning(
-        self, 
-        timestamp_start: float, 
-        timestamp_end: float,
-        messages: List[Any]
+        self, timestamp_start: float, timestamp_end: float, messages: List[Any]
    ) -> None:
        """
        触发 expression 学习，使用指定的消息列表
-        
+
        Args:
            timestamp_start: 开始时间戳
            timestamp_end: 结束时间戳
            messages: 消息列表
        """
        try:
-            # 传递消息和过滤函数给 ExpressionLearner
-            learnt_style = await self.expression_learner.learn_and_store(
-                messages=messages,
-                person_name_filter=self.contains_person_name
-            )
-            
+            # 传递消息给 ExpressionLearner（必需参数）
+            learnt_style = await self.expression_learner.learn_and_store(messages=messages)
+
            if learnt_style:
                logger.info(f"聊天流 {self.chat_name} 表达学习完成")
            else:
@@ -193,148 +159,37 @@ class MessageRecorder:
        except Exception as e:
            logger.error(f"为聊天流 {self.chat_name} 触发表达学习失败: {e}")
            import traceback
+
            traceback.print_exc()
-    
+
    async def _trigger_jargon_extraction(
-        self, 
-        timestamp_start: float, 
-        timestamp_end: float, 
-        messages: List[Any]
+        self, timestamp_start: float, timestamp_end: float, messages: List[Any]
    ) -> None:
        """
        触发 jargon 提取，使用指定的消息列表
-        
+
        Args:
            timestamp_start: 开始时间戳
            timestamp_end: 结束时间戳
            messages: 消息列表
        """
        try:
-            # 传递消息和过滤函数给 JargonMiner
-            await self.jargon_miner.run_once(
-                messages=messages,
-                person_name_filter=self.contains_person_name
-            )
-            
+            # 传递消息给 JargonMiner，避免它重复获取
+            await self.jargon_miner.run_once(messages=messages)
+
        except Exception as e:
            logger.error(f"为聊天流 {self.chat_name} 触发黑话提取失败: {e}")
            import traceback
+
            traceback.print_exc()
-    
-    def _update_person_list(self, messages: List[Any]) -> None:
-        """
-        从消息中提取人物信息并更新人物列表
-        
-        Args:
-            messages: 消息列表
-        """
-        for msg in messages:
-            # 获取消息发送者信息
-            # 消息对象可能是 DatabaseMessages，它有 user_info 属性
-            if hasattr(msg, 'user_info'):
-                # DatabaseMessages 类型
-                user_info = msg.user_info
-                user_id = getattr(user_info, 'user_id', None) or ''
-                user_platform = getattr(user_info, 'platform', None) or ''
-                user_nickname = getattr(user_info, 'user_nickname', None) or ''
-                user_cardname = getattr(user_info, 'user_cardname', None)
-            else:
-                # 直接属性访问
-                user_id = getattr(msg, 'user_id', None) or ''
-                user_platform = getattr(msg, 'user_platform', None) or ''
-                user_nickname = getattr(msg, 'user_nickname', None) or ''
-                user_cardname = getattr(msg, 'user_cardname', None)
-            
-            msg_time = getattr(msg, 'time', time.time())
-            
-            # 检查必要信息
-            if not user_id or not user_platform:
-                continue
-            
-            # 获取 person_name
-            try:
-                person = Person(platform=user_platform, user_id=str(user_id))
-                person_name = person.person_name or user_nickname or (user_cardname if user_cardname else "未知用户")
-            except Exception as e:
-                logger.info(f"获取person_name失败: {e}, 使用nickname")
-                person_name = user_nickname or (user_cardname if user_cardname else "未知用户")
-            
-            # 生成唯一key
-            unique_key = f"{user_platform}:{user_id}"
-            
-            # 如果已存在，更新最后发言时间
-            if unique_key in self._person_list:
-                self._person_list[unique_key].last_seen_time = msg_time
-                # 移动到末尾（表示最近活跃）
-                self._person_list.move_to_end(unique_key)
-            else:
-                # 如果超过最大数量，移除最早的（最前面的）
-                if len(self._person_list) >= self._max_person_count:
-                    oldest_key = next(iter(self._person_list))
-                    del self._person_list[oldest_key]
-                    logger.info(f"人物列表已满，移除最早的人物: {oldest_key}")
-                
-                # 添加新人物
-                person_info = PersonInfo(
-                    user_id=str(user_id),
-                    user_platform=user_platform,
-                    user_nickname=user_nickname or "",
-                    user_cardname=user_cardname,
-                    person_name=person_name,
-                    last_seen_time=msg_time
-                )
-                self._person_list[unique_key] = person_info
-                logger.info(f"添加新人物到列表: {unique_key}, person_name={person_name}")
-    
-    def contains_person_name(self, content: str) -> bool:
-        """
-        检查内容是否包含任何参与聊天的人物的名称或昵称
-        
-        Args:
-            content: 要检查的内容
-            
-        Returns:
-            bool: 如果包含任何人物名称或昵称，返回True
-        """
-        if not content or not self._person_list:
-            return False
-        
-        content_lower = content.strip().lower()
-        if not content_lower:
-            return False
-        
-        # 检查所有人物
-        for person_info in self._person_list.values():
-            # 检查 person_name
-            if person_info.person_name:
-                person_name_lower = person_info.person_name.strip().lower()
-                if person_name_lower and person_name_lower in content_lower:
-                    logger.debug(f"内容包含person_name: {person_info.person_name} in {content}")
-                    return True
-            
-            # 检查 user_nickname
-            if person_info.user_nickname:
-                nickname_lower = person_info.user_nickname.strip().lower()
-                if nickname_lower and nickname_lower in content_lower:
-                    logger.debug(f"内容包含nickname: {person_info.user_nickname} in {content}")
-                    return True
-            
-            # 检查 user_cardname（群昵称）
-            if person_info.user_cardname:
-                cardname_lower = person_info.user_cardname.strip().lower()
-                if cardname_lower and cardname_lower in content_lower:
-                    logger.debug(f"内容包含cardname: {person_info.user_cardname} in {content}")
-                    return True
-        
-        return False


 class MessageRecorderManager:
    """MessageRecorder 管理器"""
-    
+
    def __init__(self) -> None:
        self._recorders: dict[str, MessageRecorder] = {}
-    
+
    def get_recorder(self, chat_id: str) -> MessageRecorder:
        """获取或创建指定 chat_id 的 MessageRecorder"""
        if chat_id not in self._recorders:
@@ -349,10 +204,9 @@ recorder_manager = MessageRecorderManager()
 async def extract_and_distribute_messages(chat_id: str) -> None:
    """
    统一的消息提取和分发入口函数
-    
+
    Args:
        chat_id: 聊天流ID
    """
    recorder = recorder_manager.get_recorder(chat_id)
    await recorder.extract_and_distribute()
-