复制成功

分享至

主页 > 比特币 >

姚前:ChatGPT类大模型训练数据的托管与治理

2023.03.07

作者:姚前,中国证监会科技监管局局长

来源:中国金融杂志 本文将刊登于《中国金融》2023年第6期

姚前:ChatGPT类大模型训练数据的托管与治理

图片来源:由无界版图AI工具生成

ChatGPT是美国人工智能研究实验室OpenAI于2022年11月30日推出的一种人工智能应用工具。它能够通过学习人类的知识来进行交流,所以也被称为“聊天机器人”。ChatGPT甫一问世便在人工智能应用领域掀起了一阵新的浪潮并引起了全球轰动,仅仅两个月内其注册用户就突破1亿。ChatGPT既好玩又实用,远超之前的自然语言处理应用,许多人认为这是一个划时代的产品,国际上主流商业公司、学术机构乃至政府部门都开始高度重视和全面拥抱大语言模型(Large Language Models,LLM,下文简称大模型)应用。

ChatGPT的主要魅力在于,它利用从互联网获取的海量训练数据开展深度学习和强化学习,可以给用户带来全新的“人机对话”体验。海量训练数据可谓是维系ChatGPT进化的核心要素之一。有研究预测,按照目前的发展速度,到2026年ChatGPT类大模型的训练将耗尽互联网上的可用文本数据,届时将没有新的训练数据可供使用。因此,算力瓶颈之外,训练数据将成为大模型产业化的最大掣肘之一。

从更深层次考虑,大模型在训练数据方面还存在各种治理问题,比如数据采集标注费时费力成本高、数据质量较难保障、数据多样化不足难以覆盖长尾和边缘案例、特定数据在获取与使用分享等方面存在隐私保护、数据偏见等问题。由此可见,人工智能产业的高质量发展离不开高质量的训练数据,训练数据的安全合规使用是大模型人工智能长期健康发展的基础。本文将以ChatGPT为例,探讨大模型训练数据的来源以及未来使用合成数据(Synthetic Data)的发展趋势,分析大模型训练数据的合规风险以及监管介入的必要性,最后提出利用数据托管机制探索有效的大模型训练数据监管体系。

ChatGPT训练数据来源与处理流程OpenAI虽没有直接公开ChatGPT的相关训练数据来源和细节,但可以从近些年业界公布过的其他大模型(如DeepMind发布的2800亿参数大模型Gopher)的训练数据推测出ChatGPT的训练数据来源。笔者整理了2018~2022年从GPT-1到Gopher的大模型的数据集(见表1)。

姚前:ChatGPT类大模型训练数据的托管与治理

总的来看,大模型的训练数据主要来自于维基百科(Wikipedia)、书籍(Books)、期刊(Journals)、Reddit社交新闻站点、Common Crawl和其他数据集。

数据的质量对于大模型的训练至关重要。在模型训练之前,通常依赖专业数据团队对数据集进行预处理。这些预处理操作通常包括:去重,即去除重复的文本数据,一般以句子为单位;文本正则化或标准化,如全角字符转半角字符,繁体中文转简体中文等;文本清洗,即剔除超文本标记语言(html)或者表情符号(emoji)等非文本内容,并对标点符号进行过滤和统一;分词,即将句子拆分成单个的词;词的清洗,如去除停用词等;词的正则化或标准化,如统一数字的写法等。经过以上预处理流程,通常可以得到质量相对较高的文本数据,防止数据中的噪声对模型的训练产生不良影响,有助于后续模型的高效训练。

除了上述常规操作之外,在一些特定的处理任务中,数据团队有可能还会根据不同目的对模型训练数据进行过滤。比如,若要构建一个金融领域的知识系统,那么最好把大模型训练数据中与金融领域相关的数据筛选出来,这样可以提升模型生成的文本与金融领域的匹配程度,使模型的输出看起来“更专业”。

合成数据将成为大模型训练数据的新来源当前,大模型的训练严重依赖现有的互联网公开文本数据。如果下一代大模型的参数达到万亿级别以上的话,数据短缺的问题将成为训练瓶颈。对此,合成数据将是一种有效的解决方案。

合成数据是计算机模拟技术或算法创建生成的自标注信息,能够在数学上或统计学上反映原始数据的属性,因此可以作为原始数据的替代品来训练、测试、验证大模型。合成数据可分为三类:表格数据和结构化数据;图像、视频、语音等媒体数据;文本数据。在大模型的训练开发上,合成数据相比原始数据,可以发挥同样甚至更好的作用,实现更廉价、更高效的大模型训练、测试和验证数据供给。ChatGPT类面向终端用户的应用只是大模型落地的开始,而产业互联网领域的应用空间更为广阔,合成数据可以解决ChatGPT类大模型的潜在数据瓶颈,推动科研和产业的进一步发展。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier