扫码阅读
手机扫码阅读
WanJuan-CC数据集:为大型语言模型训练提供高质量Webtext资源

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

Datawhale
扫码关注公众号
Datawhale干货
作者:虹桥北北
上海人工智能实验室的论文提供了高质量网页数据提炼的参考方案,强调了基于大规模数据预训练的重要性,并介绍了OpenDataLab团队设计的处理CommonCrawl网页数据的高效流程。该流程成功构建了WanJuan-CC数据集,经验证表现出高安全性和实用性。
1. 背景知识
CommonCrawl作为一个大规模互联网数据源,包含丰富但复杂的数据,其挑战在于数据质量和安全性。WanJuan-CC处理了这些挑战,通过独特的清洗流程和内容安全措施,提供了高质量的数据集。
2. 高性能分布式数据处理框架
OpenDataLab团队开发的数据处理流程包括五个核心步骤:数据提取、启发式规则过滤、模糊去重、内容安全过滤和数据质量过滤。这一流程提高了数据的安全性和质量。
3. WanJuan-CC数据处理结果
WanJuan-CC从CommonCrawl的大量数据中精选了高质量数据,其文档留存率、不同指标分布、数据毒性检测和模型评测结果均表明其数据的优越性。
4. 总结
WanJuan-CC提供了安全、高质量的数据,对于大规模语言模型训练领域具有重要意义。其数据处理技术对提升模型训练效率和性能有显著作用,并为未来NLP任务提供了新的可能性。
想要了解更多内容?

Datawhale
扫码关注公众号
Datawhale的其他文章
吴恩达 x OpenAI Prompt Engineering教程中文笔记
Datawhale干货
作者:刘俊君,Datawhale成员完整课程??
FaceChain高保真人像风格生成挑战赛:一等奖方案
Datawhale分享
作者:马琦钧,Datawhale成员
简 介
大
对标 OpenAI ,这家大模型企业发布一大波旗舰级模型!
Datawhale发布 发布:智谱AI,最新旗舰级模型自 ChatGP
专科拿到季军:微茫星火,奋起直追!
Datawhale干货
作者:“不啻微茫”团队,季军方案?
冠军团队!第二届百度搜索创新大赛AI方案
Datawhale干货
作者:李柯辰,Datawhale成员写在前面
加入社区微信群
与行业大咖零距离交流学习


PMO实践白皮书
白皮书上线
白皮书上线