数据处理 (Data Processing Pipeline)

本目录覆盖大语言模型训练数据的全生命周期处理流程,从原始数据采集、清洗、标注、增强到最终的格式化与Tokenization,为模型微调提供高质量数据底座。


目录结构

数据采集 (Data Collection)

  • 数据收集指南 — 多来源数据的采集策略、网络爬取、开放数据集整合与版权合规

数据清洗 (Data Cleaning)

  • 数据清洗技术 — 去重(Deduplication)、噪声过滤、格式标准化、异常值处理与质量评分体系

数据标注 (Data Annotation)

数据增强 (Data Augmentation)

  • 数据增强方法 — 回译、同义词替换、数据合成、LLM生成增强与领域自适应增强技术

数据格式化 (Data Formatting)


数据处理流水线

flowchart LR
    A[原始数据采集] --> B[数据清洗]
    B --> C[数据标注]
    C --> D[数据增强]
    D --> E[格式化Tokenization]
    E --> F[训练数据集]

数据质量优先级

数据质量在微调效果中的贡献约占 70%,远超模型架构选择(约20%)和训练技巧(约10%)。garbage in, garbage out — 低质量数据是模型性能最常见的瓶颈来源。


各环节关键要点

环节核心挑战推荐策略
采集来源分散、格式不统一统一Schema提取、分层存储
清洗去重不彻底、质量不一致多级去重(精确+模糊)、质量评分
标注成本高、一致性差双盲标注、主动学习、LLM辅助标注
增强引入噪声、分布偏移保守增强、评估增强后分布漂移
格式化Tokenizer不匹配、特殊Token冲突统一模板引擎、Token计数审计

相关知识节点