扫码阅读
手机扫码阅读

开源数据集的获取不该成为你的阻塞项

107 2024-09-29

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:开源数据集的获取不该成为你的阻塞项
文章来源:
啥都会一点的研究生
扫码关注公众号

摘要

本文介绍了获取公共开源数据集的5种方法,并在文章末尾提供了一种直接检测数据集的大招。

Kaggle

Kaggle是一个数据科学竞赛、数据库托管、代码编写和分享的平台,提供超过 50,000 个公共数据集和 400,000 个公共笔记。用户可以通过搜索栏和高级过滤功能来挑选数据集。

Paper with Code

Papers with Code收集了众多领域的论文和代码,提供sota论文实现,并且可以根据数据形态或任务等多种方式检索数据集。

Roboflow

Roboflow提供了庞大的计算机视觉数据集、图像和预训练模型,支持在线试用数据集的预训练模型,并提供数据集的下载,格式适配多种任务和模型。

Mendeley Data

Mendeley Data是一个包含近七万数据集的专业数据库,涵盖图片、文本、音频等多种数据类型,支持免费下载。

IEEE DataPort

IEEE DataPort提供了专业性强的数据集,虽然是付费的,但对某些研究可能非常有用。

Google Dataset Search

作者推荐的大招是使用Google Dataset Search,一个可以检索数千个数据集的工具,简单搜索关键字便能找到丰富的数据集资源。

文章结束语强调了希望公开数据资源的获取不成为阅读者的障碍,并提醒读者本篇文章的实用价值。

想要了解更多内容?

查看原文:开源数据集的获取不该成为你的阻塞项
文章来源:
啥都会一点的研究生
扫码关注公众号