数据对于大模型有多重要?
尽管业内对于人工智能领域的诸多问题尚未达成明确的共识,但行业对大模型的发展认知正在逐渐清晰,其中一点就是数据质量和数据量将是下一阶段大模型能力涌现的关键。
刚结束的2023世界人工智能大会(WAIC)上,《人工智能十大趋势》报告指出“未来一个模型的好坏,20%由算法决定,80%由数据质量决定,接下来高质量的数据将是提升模型性能的关键。
数据对于大模型有多重要?
关于数据量(Training Tokens)和模型大小(Parameters)对于模型的影响,OpenAI在2022年发表的论文有过讨论:在计算量增加10倍时,模型大小增加5倍,数据大小增加约2倍;而计算量再增加10倍时,模型大小增加25倍,数据大小仅增加4倍。
大语言模型的缩放定律
这个结论让业内普遍认知应该利用有限的算力资源关注于设计越来越大的模型,而不是通过更多数据训练相对较小的模型。尤其是在NVIDIA去年尝试仅用4500亿个token训练万亿级参数的模型后,几乎每个人都认为模型大小比数据大小重要得多,这种观点被称之为大语言模型的缩放定律(Scaling Laws for Large Language Models)
但随后DeepMind给出了不一样的观点,DeepMind使用了1.4万亿个token训练出具有700亿参数的模型Chinchilla,相比之下,另一个成熟的模型Gopher具有2800亿参数,但只用了3000亿个token即可完成训练,结果是Chinchilla几乎在所有方面都优于Gopher。
Chinchilla vs Gopher,数据与模型参数之争
DeepMind也分析了OpenAI之前得出错误结论的可能原因(“It looks like OpenAI used a single total annealing schedule for all of their runs, even those of different lengths.”),这里不过讨论细节,但最终DeepMind得出的结论改变了大家的认知:即在有限算力资源的情况下,更多更好的训练数据比一味提升模型参数规模更重要。
数据是否会耗尽?
既然数据对于大模型(或者经过微调的垂直小模型)非常重要,那另一个问题是,现阶段我们的数据是否够足以支撑模型的训练?
作为所谓的大模型三驾马车(大数据、大算力、强算法)之一,似乎数据并不会像现阶段的算力资源一样短缺:在我们固有的认知当中数据是取之不尽用之不竭的,并且新数据还在源源不断的产生(仅Facebook每天就能产生4PB的数据)。
实际的情况却并非如此,Epoch去年11月进行的一项研究估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”,而后者具体来说是指书籍、新闻文章、科学论文、维基百科和过滤的网络内容以及特定行业的专业文本。
为什么高质量语言数据为什么会欠缺?这一方面是因为清洗高质量的语言数据成本非常高,以熠智的一个合作伙伴为例:某985高校AI团队,其收集、清洗了约3TB高质量中文数据,包括爬取数据的带宽、数据存储(未清洗的原始数据约为100TB)、清洗数据的CPU资源成本高达数十万元。这就产生了一个问题:使用这些数据的客户群体——AI模型公司,并不愿意支付如此高昂的成本来获取数据;而数据拥有方降低价格销售数据又面临数据被二次贩卖的风险,这本质上还是数据作为资产被交易所需要解决的老问题。
更重要的一点,当大模型发展走向更深度,比如行业大模型,其所需的数据就不再是互联网免费公开的数据,要训练出精度极高的的垂直行业模型,需要的是行业专业知识,甚至商业机密类型的知识。无论是出于隐私保护的要求,还是确权、收益划分存在的困难,这些私域数据目前都难以被公开使用。
大模型与隐私计算联手进入下半场
实际上大模型相关创业公司面临的困境也与上述问题息息相关,据不完全统计,包含通用与垂直、开源与闭源不同类型在内,国产大模型数量已超百家。鉴于越来越多的基石模型(Foundation Model)免费提供使用以及大厂大模型训练框架的开源,面向垂直行业、闭源的轻量化路线几乎成为了大模型创业公司的最优选择。
因此对于这个赛道,高质量的垂直行业数据、基于专业知识的调整(Adaptation)能力构成了这些公司的护城河。对于专注于行业模型的企业,目前面临一个问题:如果直接将模型交付于客户,意味着这些模型参数背后积累的行业数据和专业知识存在被二次贩卖的可能,导致这些企业很难构建一个持续健康的销售模式。
当我们把大模型产业看做从数据到应用的一个链条,会发现本质上这个链条是各种数据(原始数据、模型参数)在不同主体间的流通链,而这个产业的商业模式则应该构建于这些流通的数据(或模型)可以成为被交易的资产这个基础之上。
大模型产业链
于是,我们看到了AI大模型和隐私计算技术交汇的可能。
在这个背景下,熠智与IDEA LAB最近达成合作,双方联合打造了具有模型安全保护功能的模型推理一体机。首先这台具有基本推理算力的硬件内置了若干行业模型,可以满足客户开箱即用的需求,此外,一体机内置了熠智自主研发的可控计算组件——DataVault,后者可以确保这些内置模型仅在获得授权的情况下被使用,并且模型以及所有中间数据无法被外部环境窃取。这种销售模式实际上降低了客户的成本:因为不用担心模型泄露,反而可以“薄利多销”。
隐私计算对于大模型而言,能够同时解决大模型所需的数据问题以及大模型的部署问题。