扫码阅读
手机扫码阅读

李薇:大模型时代的数据变革

85 2024-09-29

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:李薇:大模型时代的数据变革
文章来源:
Datawhale
扫码关注公众号
文章摘要:Datawhale干货

大模型的发展与研究方向

大模型在参数规模上有显著变化,其研究方向包括"scaling law",即模型效果与模型参数量、数据量和计算量的幂律关系。OpenAI与DeepMind的研究表明,参数规模是模型能力的主要驱动力,而在参数规模较小但训练数据量大的情况下,模型效果更佳。Meta公司推出的LLaMA模型以及斯坦福的Alpaca模型都体现了在有限算力下,提升训练数据量可以显著提高模型效果。

大模型数据组成

预训练模型是大模型研究的主要对象,其数据组成包括百科数据、书籍数据、期刊数据、社交新闻等,其中以网页数据为主。从GPT-1至GPT-4,预训练数据规模不断增长,数据配比更为细化。GPT系列模型的数据配方随模型演进而变化,引入代码和数学题等语料,增强了模型的推理能力。Pile数据集是一个涵盖多种类型数据的知名大模型预训练数据集。

OpenDataLab介绍

OpenDataLab是一个提供大量数据和语料支持的开放数据平台,拥有超过5400个公开数据集和80TB的总容量。平台进行合规性检查并分类数据,便于用户查找所需数据。平台还提供了多模态预训练和评测数据,包括图文数据集LAION-5B和图像分割数据集SA-1B。此外,OpendataLab提供了数据采集工具、智能标注工具LabelU,以及数据描述语言DSDL,以支持大模型的数据需求。

想要了解更多内容?

查看原文:李薇:大模型时代的数据变革
文章来源:
Datawhale
扫码关注公众号