扫码阅读

手机扫码阅读

WanJuan-CC数据集：为大型语言模型训练提供高质量Webtext资源

247 2024-09-29

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：WanJuan-CC数据集：为大型语言模型训练提供高质量Webtext资源

文章来源：

Datawhale

扫码关注公众号

Datawhale干货

作者：虹桥北北

上海人工智能实验室的论文提供了高质量网页数据提炼的参考方案，强调了基于大规模数据预训练的重要性，并介绍了OpenDataLab团队设计的处理CommonCrawl网页数据的高效流程。该流程成功构建了WanJuan-CC数据集，经验证表现出高安全性和实用性。

1. 背景知识

CommonCrawl作为一个大规模互联网数据源，包含丰富但复杂的数据，其挑战在于数据质量和安全性。WanJuan-CC处理了这些挑战，通过独特的清洗流程和内容安全措施，提供了高质量的数据集。

2. 高性能分布式数据处理框架

OpenDataLab团队开发的数据处理流程包括五个核心步骤：数据提取、启发式规则过滤、模糊去重、内容安全过滤和数据质量过滤。这一流程提高了数据的安全性和质量。

3. WanJuan-CC数据处理结果

WanJuan-CC从CommonCrawl的大量数据中精选了高质量数据，其文档留存率、不同指标分布、数据毒性检测和模型评测结果均表明其数据的优越性。

4. 总结

WanJuan-CC提供了安全、高质量的数据，对于大规模语言模型训练领域具有重要意义。其数据处理技术对提升模型训练效率和性能有显著作用，并为未来NLP任务提供了新的可能性。

论文链接：https://arxiv.org/abs/2402.19282

数据集下载链接：https://opendatalab.com/OpenDataLab/WanJuanCC

想要了解更多内容？

查看原文：WanJuan-CC数据集：为大型语言模型训练提供高质量Webtext资源

文章来源：

Datawhale

扫码关注公众号

相关推荐

AI浪花一朵朵

804

GPT ChatGPT 发布模型

最近关于 AI 新产品发布的信息量有点大，需要每个人慢慢消化，未来的工作、生活将与之息息相关。百度基于文心大

AIGC｜如何将Milvus集成到LangFlow中？一篇文章教会你！

1147

Milvus 所示组件 milvus

一次强强联合的实践

2023年趋势报告

279

Java 特性引入 2023

Java 2023年趋势报告市场占有率Java在2023年仍然是编程世界的中坚力量，拥有广泛的市场占有率。根

一文详解大语言模型的流行架构与训练技术

616

点击下方卡片，关注“AI生成未来”>>关注【AI生

动手做一个最小Agent——TinyAgent！

306

Datawhale干货作者：宋志学，Datawhale成员前言 ?

介绍几款实用的AI搜索引擎

413

在日常生活中,我们大多使用的搜索引擎是百度和谷歌等。本文将给大家简单介绍几款实用的AI助手搜索工具,与传统搜索引擎相比,它们利用人工智能提升了用户体验。

Datawhale

一个专注于AI领域的开源组织，汇聚了众多优秀学习者，使命-for the learner，和学习者一起成长。

45 篇文章

浏览 17.2K

Datawhale的其他文章

动手做一个最小RAG——TinyRAG

Datawhale干货作者：宋志学，Datawhale成员大家好，??

首批！八家大模型企业面向全民开放

8月31日凌晨，国内首批大模型产品终于获得了正式批准。

Datawhale出品，视觉SLAM教程开源！

项目成功毕业！

GLM-4最新开源版本硬核测评！Datawhale成员万字测评（一）

GLM-4最新开源版本硬核测评。

快速拿下 AI Prompt 工程师证书攻略！

随机阅读

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

WanJuan-CC数据集：为大型语言模型训练提供高质量Webtext资源