Datasets

人工智能智能时代，依旧无法离开数据。奇异AI的工作者们收集了大量的数据来源，甚至在官网开辟了一块领域让大家方便的快速进入各大数据集入口。我们从以下领域出发收集来包含18大领域，近300种各类数据集。但其中有许多还无法完全包含进来，如果你有好的数据集来源，再可用的情况下可以给我们send PR。

本数据集由奇异人工智能整理发布，转载请注明出处：http://strangeai.pro 国内最大的人工智能算法交易平台。商业合作请联系：jintianiloveu.

Updates

图像数据集(分类检测分割)

eVDS: A very good video dataset for different class object;
COCO: coco图像分类，分割数据集；
KITTI: 自动驾驶的包含目标检测，激光雷达3D检查的数据集， http://www.cvlibs.net/datasets/kitti/eval_object.php 由于kitti数据集每次下载都要申请，为了简单，在本repo的scripts中包含了download kitti的一键下载脚本，可以直接下载;
VOC：用于图片分类目标检测与风格的公开数据集，不过年代比较老了， http://host.robots.ox.ac.uk/pascal/VOC/;
维基百科公式图片与文本：可以用来训练公式自动识别的AI，http://www.svcl.ucsd.edu/projects/crossmodal/;
Face/HeadsSegmentation: 精准的头部分割数据集：

Color names dataset: 直接从图片生成颜色的名字（为什么不生成颜色，还能提取主题色）：http://lear.inrialpes.fr/people/vandeweijer/data.html;
FASSEG: faces segmentation datasets. 精准的脸部分割数据集。

该部分数据集可以直接在奇异AI官网首页快速进入: http://strangeai.pro

LJ: 语音识别合成数据集，英文，女声，质量高，2.6G左右
OpenSLR: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline. 一个开源的中文语音数据集，下载地址：http://www.openslr.org/33/
VCTK: English multi speaker datasets to train a TTS with multi sounds.
Nancy: Nancy datasets for text to speech system, this dataset more clear then LJ I think.

本仓库由奇异AI在互联网基础上添加整理，感谢其他人的贡献。我们希望更多人通过学习AI知识，紧跟时代潮流，实现人生理想。奇异AI是国内最大的Paas算法交易平台，欢迎学习者或企业合作者与我们进行深入的算法合作.

关注【奇异人工智能】公众号
获取更多更有趣的AI教程
微信公众号：奇异人工智能
奇异官网：http://strangeai.pro