Recursive Splitter
Written: 2026.061. 为什么需要这讲
本项目的文档切分(第 3 讲和第 16 讲)使用 LangChain 的RecursiveCharacterTextSplitter,这是整个入库链路中最关键的参数决策点。主讲义只展示了分隔符列表,没有解释递归降级切分的核心算法。理解这个算法才能理解为什么 chunk_size 和 overlap 的设置会影响检索质量。
2. 朴素切分的问题
最直观的切分方式是定长切分:每 N 个字符切一刀。- 句子被从中间切断,语义不完整
- LLM 看到”签订劳动”和”合同和保密协议”两个碎片,不如看到一个完整的”签订劳动合同和保密协议”
3. 递归降级切分算法
RecursiveCharacterTextSplitter 的核心思想:用一组分隔符,从粗到细递归尝试。
4. 具体例子
假设有如下文本(chunk_size=200):\n\n(段落)
5. Overlap 的作用
chunk_overlap 让相邻 chunk 之间有重叠内容:
6. Markdown 文件的特殊处理
对于.md 文件,LangChain 提供了一个增强切分器:
7. 表格文件的特殊保护
8. chunk_size 调优的权衡
| chunk_size | 优点 | 缺点 |
|---|---|---|
| 小(200-300) | 检索精确,匹配粒度细 | 上下文不完整,chunk 数量多 |
| 中(500-800) | 平衡精度和上下文 | 需要 overlap 来保证连续性 |
| 大(1000-2000) | 上下文完整 | 检索不精确,语义信号被稀释 |
- 用子块(500)做检索 → 精确
- 用父块(2000)给 LLM → 完整
9. 小结
- 递归降级:从段落 → 换行 → 句号 → 逗号 → 字符,逐步降级
- 优先级:优先在语义边界切分,只在必要时才强制截断
- Overlap:防止切分边界切断关键信息
- 父子块策略:子块检索 + 父块生成,兼顾精度和完整性
- 表格保护:表格行不参与递归切分,保持语义单元完整

