人工智能智能时代,依旧无法离开数据。奇异AI的工作者们收集了大量的数据来源,甚至在官网开辟了一块领域让大家方便的快速进入各大数据集入口。我们从以下领域出发收集来包含18大领域,近300种各类数据集。但其中有许多还无法完全包含进来,如果你有好的数据集来源,再可用的情况下可以给我们send PR。
本数据集由奇异人工智能整理发布,转载请注明出处:http://strangeai.pro 国内最大的人工智能算法交易平台。商业合作请联系:jintianiloveu
.
Updates
-
2019.04.08: Add eVDS dataset
-
2018.12.29: 新增几个图像分割数据集
-
2018.11.26: 新录入中文语音识别数据集
-
2018.11.6: 新录入文本生成数据集
-
eVDS: A very good video dataset for different class object;
-
COCO: coco图像分类,分割数据集;
-
KITTI: 自动驾驶的包含目标检测,激光雷达3D检查的数据集, http://www.cvlibs.net/datasets/kitti/eval_object.php 由于kitti数据集每次下载都要申请,为了简单,在本repo的scripts中包含了download kitti的一键下载脚本,可以直接下载;
-
VOC: 用于图片分类目标检测与风格的公开数据集,不过年代比较老了, http://host.robots.ox.ac.uk/pascal/VOC/;
-
维基百科公式图片与文本:可以用来训练公式自动识别的AI,http://www.svcl.ucsd.edu/projects/crossmodal/;
-
Face/HeadsSegmentation: 精准的头部分割数据集:
-
Color names dataset: 直接从图片生成颜色的名字(为什么不生成颜色,还能提取主题色):http://lear.inrialpes.fr/people/vandeweijer/data.html;
-
FASSEG: faces segmentation datasets. 精准的脸部分割数据集。
该部分数据集可以直接在奇异AI官网首页快速进入: http://strangeai.pro
-
DAVIS: 视频分割跟踪数据集 https://davischallenge.org/, 可以用来训练视频分割与跟踪模型;
-
IMDB WIKI: 分男女的人脸标注数据集;
-
Central Pedestrian: 带有3D框标注的行人追踪数据集;
-
LJ: 语音识别合成数据集,英文,女声,质量高,2.6G左右
-
OpenSLR: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline. 一个开源的中文语音数据集,下载地址:http://www.openslr.org/33/
-
VCTK: English multi speaker datasets to train a TTS with multi sounds.
-
Nancy: Nancy datasets for text to speech system, this dataset more clear then LJ I think.
-
金融
美国劳工部统计局官方发布数据 沪深股票除权除息、配股增发全量数据,截止 2016.12.31 上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票 深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票
深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票
-
交通
-
商业
-
推荐系统
本仓库由奇异AI在互联网基础上添加整理,感谢其他人的贡献。我们希望更多人通过学习AI知识,紧跟时代潮流,实现人生理想。奇异AI是国内最大的Paas算法交易平台,欢迎学习者或企业合作者与我们进行深入的算法合作.
关注【奇异人工智能】公众号
获取更多更有趣的AI教程
微信公众号:奇异人工智能
奇异官网:http://strangeai.pro