扫码阅读

手机扫码阅读

李薇：大模型时代的数据变革

136 2024-09-29

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：李薇：大模型时代的数据变革

文章来源：

Datawhale

扫码关注公众号

文章摘要：Datawhale干货

大模型的发展与研究方向

大模型在参数规模上有显著变化，其研究方向包括"scaling law"，即模型效果与模型参数量、数据量和计算量的幂律关系。OpenAI与DeepMind的研究表明，参数规模是模型能力的主要驱动力，而在参数规模较小但训练数据量大的情况下，模型效果更佳。Meta公司推出的LLaMA模型以及斯坦福的Alpaca模型都体现了在有限算力下，提升训练数据量可以显著提高模型效果。

大模型数据组成

预训练模型是大模型研究的主要对象，其数据组成包括百科数据、书籍数据、期刊数据、社交新闻等，其中以网页数据为主。从GPT-1至GPT-4，预训练数据规模不断增长，数据配比更为细化。GPT系列模型的数据配方随模型演进而变化，引入代码和数学题等语料，增强了模型的推理能力。Pile数据集是一个涵盖多种类型数据的知名大模型预训练数据集。

OpenDataLab介绍

OpenDataLab是一个提供大量数据和语料支持的开放数据平台，拥有超过5400个公开数据集和80TB的总容量。平台进行合规性检查并分类数据，便于用户查找所需数据。平台还提供了多模态预训练和评测数据，包括图文数据集LAION-5B和图像分割数据集SA-1B。此外，OpendataLab提供了数据采集工具、智能标注工具LabelU，以及数据描述语言DSDL，以支持大模型的数据需求。

想要了解更多内容？

查看原文：李薇：大模型时代的数据变革

文章来源：

Datawhale

扫码关注公众号

相关推荐

谷歌Bard：ChatGPT之外的第三选择

970

Google 分享内容 Bard

成年人不做选择题：既要ChatGPT，也要Claude ，还要 Bard。

让GPT来帮助宝马为“冰淇淋”事件公关

200

宝马 ChatGPT 公关 Claude

让GPT来帮助宝马为“冰淇淋”事件公关

“课题分离”在管理中的应用

831

肉眼可见的写作成长

AI震撼！OpenAI Sora视频模型引领互联网视频创作新时代

187

Sora 技术视频电影

大家好，今天我们要给大家介绍的是OpenAI的最新超级视频模型——Sora技术。

入门深度学习，TensorFlow和PyTorch哪个好

180

PyTorch TensorFlow Python 编程

介绍TensorFlow和PyTorch这两个领先的深度学习框架之间的主要区别，助你做出合适的选择。

效果炸裂、刷爆各大视频网站的EMO到底是怎么做到的？

100

原点击下方卡片，关注“AI生成未来”回复“AIGC交流?

一个专注于AI领域的开源组织，汇聚了众多优秀学习者，使命-for the learner，和学习者一起成长。

45 篇文章

浏览 8545

Datawhale的其他文章

为什么电脑配置高，玩《黑神话：悟空》需要等待这么久

Datawhale干货作者：Eternity，Datawhale成员不少玩家在

达到1k stars后，我对大模型开源教程的反思！

Datawhale干货作者：陈安东，Datawhale成员前言 “?

改进探索性数据分析的实用技巧！

Datawhale干货译者：张峰，Datawhale成员让 EDA 更简单

代码逐行解析！冠军选手解读锂电池生产温度预测赛事方案

代码逐行解析，可一键运行。

Sora技术详解及影响分析！

野心远不止视频生成。

随机阅读

《非暴力沟通》读书笔记

和任老师聊聊质量工作

杂谈推理逻辑的严密性

你是否真的读懂了回归方程y=ax+b?

回归方程有效性的检查

加入社区微信群

与行业大咖零距离交流学习

软件研发质量管理体系建设白皮书上线

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：xdwjack
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询