扫码阅读

手机扫码阅读

数据对于大模型有多重要？

2853 2024-02-20

模型数据训练

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：数据对于大模型有多重要？

文章来源：

职小马

扫码关注公众号

在人工智能领域，数据质量和数据量正逐渐被认为是下一阶段大模型能力发展的关键因素。《人工智能十大趋势》报告在2023世界人工智能大会（WAIC）上指出，未来模型的表现将有80%取决于数据质量。OpenAI的研究讨论了数据和模型大小对模型性能的影响，并发现在计算资源有限的情况下，模型大小比数据量的增加更能提升性能。这一发现被称为大语言模型的缩放定律。

然而，DeepMind的研究提出了不同的观点。他们通过使用更多的训练数据（1.4万亿个token）训练一个较小的模型（700亿参数的Chinchilla），与使用较少数据（3000亿个token）训练大模型（2800亿参数的Gopher）相比，Chinchilla在各方面几乎都表现得更好。这表明，在有限的算力资源下，更多的优质数据比简单地增加模型大小更为重要。

鉴于数据对于大模型至关重要，一个紧迫的问题是，是否有足够的数据来支持这些模型的训练。尽管我们习惯认为数据资源是无限的，但Epoch的研究预测，高质量的机器学习数据集可能会在2026年前耗尽。此外，收集和清洗高质量数据的成本很高，导致AI模型公司不愿支付这些成本，同时数据所有者也担心数据被二次销售的风险。

当模型发展深入到特定行业，所需的数据不再是互联网上公开的信息，而是包含专业知识甚至商业机密的数据，这些数据难以公开使用。因此，大模型创业公司面临的困境是如何保护这些数据和专业知识，以建立持续健康的销售模式。

为了应对这些挑战，大模型产业链正在与隐私计算技术交汇。熠智公司与IDEA LAB合作开发了具有模型安全保护功能的模型推理一体机，它内置了行业模型和DataVault可控计算组件，确保模型只在授权的情况下使用。这种销售模式降低了客户成本，并通过隐私计算解决了大模型在数据和部署上的问题。

想要了解更多内容？

查看原文：数据对于大模型有多重要？

文章来源：

职小马

扫码关注公众号

相关推荐

极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

31

模型世界生成视频

击下方卡片，关注“AI生成未来”>>后台回复“GAI

大语言模型的前世今生：万字长文完整梳理所有里程碑式大语言模型（LLMs）

37

模型训练语言 GPT

点击下方卡片，关注“AI生成未来”>>后台回复“

理解 DDD：编程中的模型思维

504

模型业务计算机逻辑

业务设计上往往没有建立起特定的领域模型，这是我们架构腐化和软件开发困难的关键原因。**业务领域建立好的模型，并指导代码实践，这就是 ”编程思维“。** DDD 领域驱动设计就是解决这部分问题，与其叫领域驱动设计，不如叫做模型驱动设计。

具身智能成败之关键！干货长文首次全面回顾具身智能领域中的视觉-语言-动作模型！

38

模型语言视觉机器人

点击下方卡片，关注“AI生成未来”>>后台回复“

LLMOps快速入门，轻松开发部署大语言模型

586

模型 LLM LLMOps 提示

深入介绍LLMOps。

AIGC｜万字长文！带你了解AI大模型技术演进

2496

模型神经网络 AI

大模型时代来临，我们站上了风口浪尖→

公众号全新升级，专注PMO项目管理、技术开发经验，提供各类学习资料下载，杂谈社会百态，传播正能量！

63 篇文章

浏览 39.5K

职小马的其他文章

这个时代最重要的能力是什么？

一个人最牛的能力是什么，所谓聪明、努力这些都是小学加减级的能力，再往上创新就是乘数的能力，而今天要和大家讨论的是这个时代特别需要的能力，真正指数级的能力。

如何做好年终汇报，来年加薪不用愁

做好年终汇报不仅仅是把你今年干了什么总结一下，重要的是，你做这些事给公司带来了什么价值，让公司看到你的价值和未来的潜力价值。这么说来年终汇报至关重要，那么怎样才能做好年终汇报呢？

成长的砝码--选对环境，有助成长指数性增长

人假如想让自己进步，不只需要自己要拼命学习，更重要的是让自己置身在一个快速流动、快速转动的群体里。90%的时间在这个群体里泡着，就是成长速度最快的方式。

业余时间这样用，才能成为一匹黑马

业余时间花费在哪里决定人生的分水岭，从底层逻辑上区别于一般人的做法，助力我们做一匹黑马！

《图解项目集管理》-第四章：项目集效益管理

本章要聊的是“项目集效益管理”。项目集效益管理包含：效益识别，效益分析和规划，效益交付，效益移交，效益维持。

随机阅读

《非暴力沟通》读书笔记

杂谈推理逻辑的严密性

三个团队的站立会议旁观笔记

公司级项目管理例会的汇报内容

对需求签字画押，有用吗？

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线