feat:为 LPMM 流水线脚本添加非交互模式

为 info_extraction.py、import_openie.py、delete_lpmm_items.py 以及新增的 lpmm_manager.py 引入统一的 --non-interactive 参数，使其能够在 CI 和自动化场景下实现完全脚本化、无交互运行。新增了一个功能完整的命令行管理脚本（lpmm_manager.py）以及一份详细的用户指南（lpmm_pipelines_guide.md）。同时，更新了 test_lpmm_retrieval.py，以支持通过 CLI 自定义测试用例，并改进了整个流水线中的错误处理和用户提示。最后，从文档和代码中移除了 ppr_relation_cap 参数。
2025-12-18 20:40:05 +08:00
parent 20c9cbad3e
commit f41c2113dc
9 changed files with 932 additions and 45 deletions
--- a/docs-src/lpmm_parameters_guide.md
+++ b/docs-src/lpmm_parameters_guide.md
@@ -76,7 +76,6 @@ embedding_chunk_size  = 16    # 每批嵌入的条数
 info_extraction_workers = 3   # 实体抽取同时执行线程数
 enable_ppr            = true  # 是否启用PPR，低配机器可关闭
 ppr_node_cap          = 8000  # 图节点数超过该值时自动跳过PPR
-ppr_relation_cap      = 50    # 命中关系数超过该值时自动跳过PPR
 ```

 - `embedding_dimension`  
@@ -97,13 +96,13 @@ ppr_relation_cap      = 50    # 命中关系数超过该值时自动跳过PPR
  - 使用 Pro/贵价模型时建议不要太大，避免并行费用过高；
  - 一般 2–4 就能取得较好平衡。

- `enable_ppr`  
+- `enable_ppr`
  是否启用个性化 PageRank（PPR）图检索：  
  - `true`：检索会结合向量+知识图，效果更好，但略慢；  
  - `false`：只用向量检索，牺牲一定效果，性能更稳定。

- `ppr_node_cap` / `ppr_relation_cap`  
-  安全阈值：当图节点数或命中关系数超过阈值时自动跳过 PPR，以避免“大图”导致卡顿。
+- `ppr_node_cap`
+  安全阈值：当图节点数超过阈值时自动跳过 PPR，以避免“大图”导致卡顿。

 > 调参建议：  
 > - 若导入/检索阶段机器明显“顶不住”（>=1MB的大文本，且分配配置<4C），优先调低：