小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

2023.10.28

原文来源：机器之心

图片来源：由无界 AI生成

大型语言模型 (LLMs) 在各种自然语言任务中展现出了卓越的性能，但是由于训练和推理大参数量模型需要大量的计算资源，导致高昂的成本，将大语言模型应用在专业领域中仍存在诸多现实问题。因此，北理团队先从轻量级别模型入手，最大程度发挥数据和模型的优势，立足更好地服务特定领域，减少下游任务的训练与推理成本。

10 月 24 日，北京理工大学自然语言处理团队发布系列双语轻量级大语言模型明德 (Ming De LLM)——MindLLM，全面介绍了大型模型开发过程中积累的经验，涵盖了数据构建、模型架构、评估和应用过程的每个详细步骤。MindLLM 从头开始训练，具有 1.3B 和 3B 两个版本，在某些公共基准测试中始终匹配或超越其他开源大型模型的性能。MindLLM 还引入了专为小型模型量身定制的创新指令调整框架，来有效增强其能力。此外，在法律和金融等特定垂直领域的应用，MindLLM 也具有出色的领域适应能力。

论文地址：https://arxiv.org/abs/2310.15777

MindLLM 亮点

我们分享了数据处理方面的经验，包括维护高质量和高比例的网络文本、保留书籍和对话等长期数据、对数学数据进行下采样，同时对代码数据进行上采样。我们建议均匀地打乱数据以进行能力学习，并将一些样本分块以用于小样本学习场景。我们的评估结果优于部分大型模型，在未使用指令微调和对齐时，MindLLM模型在 MMLU 和 AGIEval 评测上的性能优于 MPT-7B 和 GPT-J-6B 等大型模型。在中文方面，MindLLM 在 C-Eval 和 CMMLU 上表现出与更大参数模型相当的性能。具体来说，MindLLM-3B 在数学能力上优于 MOSS-Base-16B、MPT-7B 等较大模型，在双语能力上超过 Baichuan2-7B 和 MOSS-Base-16B。而且，MindLLM-1.3B 在数学上比同等大小的 GPT-Neo-1.3B 更好。我们比较了双语学习中两种不同的训练策略，并研究在预训练期间是否保持数据均匀分布的影响。我们得出的结论，对于容量规模有限的轻量级模型（≤7B）来说，通过预训练然后迁移训练的策略来实现数学、推理或双语对齐等复杂能力并不是最优的，因为整合新知识和现有知识是困难的。相比之下，更有效的策略是从头开始，结合下游任务的需求，对多种数据类型进行整合，从而确保所需能力能够稳定且有效地获取。我们发现在指令调优过程中利用针对特定能力的定制数据，可以显着增强轻量级模型的特定能力，例如综合推理能力或学科知识能力。我们介绍了使用基于熵的质量过滤策略构建指令集的方法，并证明了其在过滤轻量级模型的高质量指令调整数据方面的有效性。我们证明，在轻量级模型的背景下，通过改善指令调优数据质量可以更有效地实现模型性能的优化，而不是仅仅增加数据量。我们的模型在特定领域展现出了出色表现，特别是在法律和金融等领域。我们发现模型参数大小的差异不会在特定领域内产生显着差异，并且较小的模型可以优于较大的模型。我们的模型在特定领域优于参数大小从 1.3B 到 3B 的所有模型，同时与参数大小从 6B 到 13B 的模型保持竞争力，而且模型在特定领域内的分类能力在 COT 方法下显著增强。

数据相关

数据处理

我们使用英文和中文两种语言的训练数据。英文数据源自Pile数据集，经过进一步处理。中文数据包括来自Wudao、CBooks等开源训练数据，以及我们从互联网上爬取的数据。为确保数据质量，我们采用了严格的数据处理方法，特别是对于从网络爬取的数据。

我们采用的数据处理方法包括如下几个方面：

格式清洗：我们使用网页解析器从源网页中提取和清理文本内容。这一阶段包括去除无用的HTML、CSS，JS标识和表情符号，以确保文本的流畅性。此外，我们处理了格式不一致的问题。我们还保留了繁体中文字符，以便我们的模型能够学习古代文学或诗歌。低质量数据过滤：我们根据网页中的文本与内容的比例来评估数据质量。具体来说，我们会排除文本密度低于75%或包含少于100个中文字符的网页。这一阈值是通过对抽样网页进行初步测试确定的。数据去重：鉴于WuDao的数据也源自网页，某些网站可能会重复发布相同的信息。因此，我们采用了局部敏感哈希算法，用以去除重复内容，同时保留了我们训练数据的多样性。敏感信息过滤：鉴于网页通常包含敏感内容，为构建一个积极正向的语言模型，我们采用了启发式方法和敏感词汇词库来检测和过滤这些内容。为了保护隐私，我们使用正则表达式来识别私人信息，如身份证号码、电话号码和电子邮件地址，并用特殊标记进行替换。低信息数据过滤：低信息数据，如广告，通常表现为重复内容。因此，我们通过分析网页文本内容中的短语频率来鉴别这类内容。我们认为来自同一网站的频繁重复短语可能对模型学习不利。因此，我们的过滤器主要关注广告或未经认证的网站中的连续重复短语。

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

加⼊OKEx全球社群

相关推荐