
JustLend DAO完成首轮JST回购
原文来源:机器之心
图片来源:由无界 AI生成
大型语言模型 (LLMs) 在各种自然语言任务中展现出了卓越的性能,但是由于训练和推理大参数量模型需要大量的计算资源,导致高昂的成本,将大语言模型应用在专业领域中仍存在诸多现实问题。因此,北理团队先从轻量级别模型入手,最大程度发挥数据和模型的优势,立足更好地服务特定领域,减少下游任务的训练与推理成本。
10 月 24 日,北京理工大学自然语言处理团队发布系列双语轻量级大语言模型明德 (Ming De LLM)——MindLLM,全面介绍了大型模型开发过程中积累的经验,涵盖了数据构建、模型架构、评估和应用过程的每个详细步骤。MindLLM 从头开始训练,具有 1.3B 和 3B 两个版本, 在某些公共基准测试中始终匹配或超越其他开源大型模型的性能。MindLLM 还引入了专为小型模型量身定制的创新指令调整框架,来有效增强其能力。此外,在法律和金融等特定垂直领域的应用,MindLLM 也具有出色的领域适应能力。
论文地址:https://arxiv.org/abs/2310.15777
MindLLM 亮点
数据相关
数据处理
我们使用英文和中文两种语言的训练数据。英文数据源自Pile数据集,经过进一步处理。中文数据包括来自Wudao、CBooks等开源训练数据,以及我们从互联网上爬取的数据。为确保数据质量,我们采用了严格的数据处理方法,特别是对于从网络爬取的数据。
我们采用的数据处理方法包括如下几个方面:
格式清洗:我们使用网页解析器从源网页中提取和清理文本内容。这一阶段包括去除无用的HTML、CSS,JS标识和表情符号,以确保文本的流畅性。此外,我们处理了格式不一致的问题。我们还保留了繁体中文字符,以便我们的模型能够学习古代文学或诗歌。 低质量数据过滤:我们根据网页中的文本与内容的比例来评估数据质量。具体来说,我们会排除文本密度低于75%或包含少于100个中文字符的网页。这一阈值是通过对抽样网页进行初步测试确定的。 数据去重:鉴于WuDao的数据也源自网页,某些网站可能会重复发布相同的信息。因此,我们采用了局部敏感哈希算法,用以去除重复内容,同时保留了我们训练数据的多样性。 敏感信息过滤:鉴于网页通常包含敏感内容,为构建一个积极正向的语言模型,我们采用了启发式方法和敏感词汇词库来检测和过滤这些内容。为了保护隐私,我们使用正则表达式来识别私人信息,如身份证号码、电话号码和电子邮件地址,并用特殊标记进行替换。 低信息数据过滤:低信息数据,如广告,通常表现为重复内容。因此,我们通过分析网页文本内容中的短语频率来鉴别这类内容。我们认为来自同一网站的频繁重复短语可能对模型学习不利。因此,我们的过滤器主要关注广告或未经认证的网站中的连续重复短语。免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

和全球数字资产投资者交流讨论
扫码加入OKEx社群
industry-frontier