扫码阅读
手机扫码阅读
WanJuan-CC数据集:为大型语言模型训练提供高质量Webtext资源
22 2024-09-29
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
Datawhale
扫码关注公众号
Datawhale干货
作者:虹桥北北
上海人工智能实验室的论文提供了高质量网页数据提炼的参考方案,强调了基于大规模数据预训练的重要性,并介绍了OpenDataLab团队设计的处理CommonCrawl网页数据的高效流程。该流程成功构建了WanJuan-CC数据集,经验证表现出高安全性和实用性。
1. 背景知识
CommonCrawl作为一个大规模互联网数据源,包含丰富但复杂的数据,其挑战在于数据质量和安全性。WanJuan-CC处理了这些挑战,通过独特的清洗流程和内容安全措施,提供了高质量的数据集。
2. 高性能分布式数据处理框架
OpenDataLab团队开发的数据处理流程包括五个核心步骤:数据提取、启发式规则过滤、模糊去重、内容安全过滤和数据质量过滤。这一流程提高了数据的安全性和质量。
3. WanJuan-CC数据处理结果
WanJuan-CC从CommonCrawl的大量数据中精选了高质量数据,其文档留存率、不同指标分布、数据毒性检测和模型评测结果均表明其数据的优越性。
4. 总结
WanJuan-CC提供了安全、高质量的数据,对于大规模语言模型训练领域具有重要意义。其数据处理技术对提升模型训练效率和性能有显著作用,并为未来NLP任务提供了新的可能性。
想要了解更多内容?
文章来源:
Datawhale
扫码关注公众号
Datawhale的其他文章
Datawhale成员,编号292
有理想、有热情、愿意分享的年轻人。
国产大模型王炸!API 正式免费用,第一手白嫖分析
Datawhale干货
亲测:潘笃驿,港科大(广州),Dataw
Github调研:开发者对生产力、协作和AI编码工具的看法
在美国,有92%的开发者使用AI编码工具,70%说他们看到了使用这些工具的巨大好处。
一文带你了解基于大模型的Agent
Datawhale干货
作者:陈安东,Datawhale成员
前 言
在
带你读论文第二期:复旦大学员司雨,荣获ACL Outstanding Paper Award 2023!
ACL Outstanding Paper Award 2023:知识获取、大语言模型。
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线