数据对于大模型有多重要?
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
在人工智能领域,数据质量和数据量正逐渐被认为是下一阶段大模型能力发展的关键因素。《人工智能十大趋势》报告在2023世界人工智能大会(WAIC)上指出,未来模型的表现将有80%取决于数据质量。OpenAI的研究讨论了数据和模型大小对模型性能的影响,并发现在计算资源有限的情况下,模型大小比数据量的增加更能提升性能。这一发现被称为大语言模型的缩放定律。
然而,DeepMind的研究提出了不同的观点。他们通过使用更多的训练数据(1.4万亿个token)训练一个较小的模型(700亿参数的Chinchilla),与使用较少数据(3000亿个token)训练大模型(2800亿参数的Gopher)相比,Chinchilla在各方面几乎都表现得更好。这表明,在有限的算力资源下,更多的优质数据比简单地增加模型大小更为重要。
鉴于数据对于大模型至关重要,一个紧迫的问题是,是否有足够的数据来支持这些模型的训练。尽管我们习惯认为数据资源是无限的,但Epoch的研究预测,高质量的机器学习数据集可能会在2026年前耗尽。此外,收集和清洗高质量数据的成本很高,导致AI模型公司不愿支付这些成本,同时数据所有者也担心数据被二次销售的风险。
当模型发展深入到特定行业,所需的数据不再是互联网上公开的信息,而是包含专业知识甚至商业机密的数据,这些数据难以公开使用。因此,大模型创业公司面临的困境是如何保护这些数据和专业知识,以建立持续健康的销售模式。
为了应对这些挑战,大模型产业链正在与隐私计算技术交汇。熠智公司与IDEA LAB合作开发了具有模型安全保护功能的模型推理一体机,它内置了行业模型和DataVault可控计算组件,确保模型只在授权的情况下使用。这种销售模式降低了客户成本,并通过隐私计算解决了大模型在数据和部署上的问题。
想要了解更多内容?