导读：

医疗大数据和智能医疗大潮迅速袭来，对于研发和产品人员来说压力越来越大，产品需要海量可靠的数据训练才能获得可靠的AI产品。然而，可靠的数据并不容易获得，今天小编推荐一个靠谱的数据集，覆盖医学影像、语意转换、笔记识别、药物信息提取等领域。

找靠谱数据集的痛苦数据科学领域的宝宝们都懂。小编发现了一个很棒的数据平台Figure Eight。相比其他数据平台，这个平台的一大特点是，用于标注数据集的模板都可以复制，而且能够在Figure Eight平台扩展其应用。每个数据集里包含了原始数据、工作设计、教程、说明等等。

以下是几个优质数据集：

1.核分割的医学图像数据集

医学专家标注的来自几种不同器官的21000个细胞核

该数据集包含标注过的苏木精-伊红染色(H&E)图像，这种图像是组织病理学中最常见的几类之一。这些图像裁剪自30个全切片成像系统中的数字化组织样本，这些组织样本来自癌症和肿瘤基因图谱中所提到的7个器官。

这些图像从18所不同的医院采集，因此不同实验室中染色实验操作的差异，也额外引入了影响成像的因素。器官中组织最密集的部分裁剪出了大小为1000 x 1000像素的图片。为了进一步保障细胞核表征的丰富性，这个数据库囊括了乳腺、肝脏、肾脏、前列腺、膀胱、结肠和胃等的良性和病变样本。

数字显微组织的核分割图像可为计算病理学中的提取核形态测量和其他分析提取出高质量的特征。诸如密度、细胞核质比、大小、形状特征、多形性等核形态测量特征和外观特征，不仅有助于评估肿瘤分级，也可用于治疗效果预测。

此数据集整合了30张裁剪后的图像，包含了超过21000个细胞核。并且每张图片经由医学专家标注和验证，可供研究人员开发和测试更普适的核分割技术，以应用于多种类型细胞核。

数据集链接 https://www.figure-eight.com/dataset/nucleus-segmentation-in-histopathological-images/

2.笔迹识别数据集

OCR(光学字符识别)的40万手写姓名的抄本

这个数据集有40多万个样本之多，基本上是从帮助世界各地弱势儿童的慈善项目中收集到的。

OCR(光学字符识别)利用图像处理技术，将扫描文件上的字符转换成数字信息。这项技术应用于机器打印的字体时通常表现良好，但对于辨认风格迥异的手写字体则稍显无力。

这个数据集共包括206,799个名和207,024个姓，分为了331059个训练集、41382个测试集和41382个验证集。

此外，这个数据集提供了所有Figure Eight平台上通过人机闭环标注系统(human-in-the-loop annotation)创建的图像标签，以方便人们用自己的数据扩充数据集。

数据集链接 https://www.figure-eight.com/dataset/handwritten-name-tranion-from-an-image/

3.旧金山停车标志探测数据集

从旧金山街景图像中探测并解析停车标志

该数据集收集了旧金山不同街区形状、颜色、方向、大小各异的停车标志图像，并通过Figure Eight平台进行了标注，实现对停车标志探测模型的训练。这些标注过的停车标志可以帮助训练OCR模型，从而使模型识别出停车、自动驾驶汽车相关的标志，而忽略商店、广告牌和其他干扰性的标志。

停车标志探测模型结合了计算机视觉、自然语言处理和空间推理技术，是Figure Eight正在运行的的项目之一。我们的目标是利用深度学习算法深入研究，以建立更精准的模型，并应用于其他城市，尤其是停车标志易与人造物体混淆的密集区域。

数据集链接 https://www.figure-eight.com/dataset/parking-sign-detection/

4.提取药物信息数据集

PubMed文章中医学术语间关系的数据集，用于关系提取和相关自然语言处理任务。

该数据集包括从PubMed文章摘要中选取的3984个医学相关语句，并标注了不相关术语间的联系。其中“治疗”关系和“因果”关系是主要关注点，共有1043个句子含有治疗关系，1787个句子含有因果关系。

人机闭环标注系统进行向标注者提供两个术语(例如“路易体痴呆(LBD)”和“真性视幻觉”)，而标注者则按照要求标注两个术语间的关系(对于上述例子应为“路易体痴呆导致真性视幻觉”)。

数据集链接 https://www.figure-eight.com/dataset/medical-sentence-summary-and-relation-extraction/

5.医疗相关谈话语音、转换文本与意图的数据集

将8.5小时的语音与常见症状的文本配对

这份8.5小时的语音里包含了数以千计的常见症状，比如“膝盖疼痛”、“头疼”等等。每一条症状语音都由真实的人，基于特定症状提供。这些音频片段可用于培训医疗领域的诊断助理。

Figure Eight通过多作业工作流创建了这个数据集。第一位参与者写下文字短语来描述设定的症状，比如对于“头疼”，他可能会写下“我想治一下偏头痛”，随后的工作则是为已接收的字符串捕捉音频。

注：这个数据集既包括音频，也包括了相应的文本。

数据集链接 https://www.figure-eight.com/dataset/audio-recording-and-tranion-for-medical-scenarios/

6.斯瓦西里语翻译健康主题数据集

将灾害和与威胁相关的数据由英语翻译成斯瓦西里语

这项工作的输入数据库是来自红十字会的灾难和与威胁相关的信息，包括疾病、受伤情况、自然灾害等项目。对于每一个类别，这个数据集都提供了特定情况下行事的指导，以及如何利用可用工具，从而在可能威胁生命的情况中生存下来的指导。

这份数据还包括了每个文本字符串的斯瓦希里语翻译。Figure Eight的工作旨在纠正斯瓦西里语翻译中的错误(如果需要的话)，并为需要译为斯瓦西里短语的人提供所收集到的语音片段。此外，贡献者需要根据给定主题的文本片段，将短语分为三类：对特定情况有帮助的物品、提升存活几率的行为和其他。

数据集链接 https://www.figure-eight.com/dataset/english-to-swahili-audio-recording-and-tranion/

7.多语言灾难响应消息数据集

一组于灾难响应相关的信息，涵盖了多种语言，适用于文本分类、相关的自然语言处理任务。

该数据集将会包含30类与灾难响应相关的信息，这些类别包括：发出信息者的意图(例如：寻求援助、提供援助)，援助主题(例如：水、食物、药品)，运输或物流相关类，和某个人是否在传递一手信息、是不是直接证人。这些类别可以作为任一现存语言的预测标签。

不同类别反映了人员和组织在灾难发生后需要的不同类的的信息。灾难过后，由于不同组织会对不同方面作出回应，没有统一的标准评判哪些信息是重要的。比如，某个组织可能专注于饮用水情况，而另一个组织则侧重于确保道路畅通。不同信息的优先级也常随时间而变化。因此，不同的子类可以映射到不同的需求和回应，这些子类所属的广泛的大类则用于标记数据集。

数据主要分为三种类型：直接发送给救灾组织的消息，社交媒体上流传的消息，以及灾难相关文章的标题。这些数据里有大约20%与灾难无关，但与其他相关数据来自于相同的文章和消息。这些不相关的数据使得研究人员能够评估他们从风格相似的数据中区分相关与不相关信息的能力。

数据集链接 https://www.figure-eight.com/dataset/combined-disaster-response-data/

8.谷歌数据集Open Images Dataset v4(包围盒)

Open Images是一个包含九百万图片的数据集，使用了几千类图像级标签和包围盒进行标注。Open Images的第4版侧重于对象检测，用包围盒标注了170万图像，这些标注覆盖了按层次分组的600类对象。

数据集链接 https://www.figure-eight.com/dataset/open-images-annotated-with-bounding-boxes/

延伸阅读：

高质量数据集哪里来？机器学习公司的十大数据搜集策略

长期以来，在机器学习中不合理的数据利用效率一直是引起广泛讨论的话题。也有人认为，曾经阻碍人工智能领域取得各种重大突破的，并不是什么高深的算法，而是缺乏高质量的数据集。然而讨论的共同中心是，在当下最前沿的机器学习方面，数据是一个相当关键的组成部分。

获取高质量的初始数据对于那些运用机器学习作为他们业务核心技术的创业公司来说是十分重要的。虽然许多算法和软件工具都是开源和共享的，但是好的数据通常是私人专有而且难以创建的。因此，拥有一个大型的、特定领域的数据集可以成为竞争优势的重要来源，尤其是如果初创公司能够启动数据网络效应(在这种情况下，更多的用户→更多的数据→更智能的算法→更好的产品→继续带来更多的用户)。

因此，对于机器学习创业公司必须做出的一个关键战略决策是如何建立高质量的数据集来训练他们学习算法。不幸的是，初创公司往往在一开始只有有限的或没有标签的数据，这一情况会阻碍创始人在构建数据驱动的产品方面取得重大进展。因此，在雇佣数据科学团队或建立昂贵的核心基础设施之前，从一开始就值得探索一套数据收集策略。

创业公司可以通过多种方式克服刚开始进行数据采集时遇到的棘手的问题。数据战略/资源的选择通常与商业模式的选择、创业公司的关注重点(消费者或企业、横向或纵向的)以及融资情况密切相关。以下简单列出几种并不互斥的策略，为广泛的可用方法提供了一种大体框架。

策略1:手动工作

从头构建一个良好的专有数据集基本意味着要将大量的前期工作和人力资源投入到数据获取上，还要完成大量无法批量完成的的手动工作。在初期借助人力的创业公司的例子很多。例如，许多聊天机器人初创公司(通过改变对成功的定义和高职工流动率吸引求职者)雇佣真人来做“人工智能培训师”，让他们手动创建或验证机器人所说的话。就连科技巨头也采取了这种策略:Facebook M(一个最新内置在Facebook Messenger中人工智能驱动的数字助理)的所有回应都是由一个承包商团队审查和编辑的。

使用人力来手动标记数据点可以是一个成功的策略，只要数据网络效应在某个时间点生效，这样所需要的人力就不再以与用户增长相同的速度增加。只要人工智能系统进步的速度足够快，未指明错误就会出现地不那么频繁，相应地，执行手工标记的人的数量也将会减少或保持不变。

适用对象：几乎每一家机器学习创业公司

例子:

一些聊天机器人创业公司(包括Magic、GoButler、x.AI和Clara)MetaMind(用于食品分类的手工收集和标记数据集)Building Radar(员工/实习生手动标记建筑物的图片)

策略2:缩小问题范围

大多数创业公司都会尝试直接从用户那里收集数据。

挑战在于说服早期用户在机器学习的好处完全发挥作用之前保持使用该产品(因为首先需要数据来训练和微调算法)。

解决这个自相矛盾的问题的方法之一，是彻底缩小问题范围(如果需要的话，可以在之后再扩大)。正如Chris Dixon所说:“你所需要的数据量与你试图解决的问题的广度有关。”

Source: x.ai(来源于X.AI)

这样缩小问题范围的好处再一次体现在聊天机器人上。这一领域的创业公司可以在两种市场策略之间做出选择:他们可以建立水平助手——可以帮助解决大量问题和回应即时请求的机器人(比如Viv、Magic、Awesome、Maluuba和Jam)。或者，他们也可以创建垂直助手——能出色完成一项具体、明确的任务的机器人(例如x.ai, Clara, DigitalGenius, Kasisto, Meekan以及最近的GoButler/Angel.ai)。这两种方法都是有效的，不管如何选择，只要缩小了问题的范围，数据收集对创业公司来说都要容易得多。

适用对象：经营垂直整合业务的公司

例子:

高度专业化的垂直聊天机器人(如 x.ai, Clara or GoButler)Deep Genomics(利用深度学习来分类/解释基因变异)Quantified Skin(使用客户自拍照来分析一个人的皮肤)

策略3:众包/外包

除了让员工(或实习生)来手动收集或标注数据，创业公司也可以通过众包来达到目的。像Amazon Mechanical Turk 或CrowdFlower 的平台提供了一种方法，可以利用数百万人的在线劳动力来清理混乱和不完整的数据。例如，VocalIQ(2015年被苹果收购)使用亚马逊土耳其机器人为其数字助手提供数千个用户提出的问题。员工也可以通过雇佣其他独立的承包商来外包(就像Clara 或Facebook M所做的那样)。使用这种方法的必要条件是可以清楚地解释这个任务，而且它不至于太长或者很无聊。

另一种策略是鼓励公众自愿提供数据。一家总部位于巴黎的人工智能创业公司Snips就是一个例子，该公司利用这种方法获得特定类型的数据(餐厅、酒店和航空公司的电子确认信)。和其他创业公司一样，Snips使用的是一种游戏化的系统，用户可以在排行榜上进行排名。

适用对象:可以很容易地执行质量控制的情况

例子:

DeepMind, Maluuba, AlchemyAPI，和其他很多人(见这里see here)VocalIQ(用土耳其机器人帮助系统学习人们如何说话)Snips (要求人们无偿为研究提供数据)

策略 4:引导用户自发参与

有一种能够自成一类的众包策略，是通过恰当的方式引导用户自发地产生数据。这种方法中很重要的一步是设计能够为用户提供恰当激励，使其主动将数据结果反馈给系统的产品。

那些在自家许多产品中都使用了这种方法的公司里，有两个十分典型的例子:谷歌(搜索引擎、谷歌翻译、垃圾邮件过滤器等等)和Facebook(用户可在照片中给朋友加标签)。用户通常不知道他们的行为在为这些公司提供免费的标签数据。

机器学习领域的许多初创公司都从谷歌和Facebook中汲取了灵感，他们创建了具有纠错功能的产品，明确地鼓励用户纠正机器错误。这方面特别出名的是reCAPTCHA 验证码和Duolingo(都是由路易斯冯创立的)。其他的例子包括Unbabel，Wit.ai 和 Mapillary.

适用对象：以消费者为中心并且有稳定用户交互的创业公司

例子:

Unbabel(用户纠正机器翻译的社区)Wit.ai (为用户提供了用于纠正翻译错误的面板/api)Mapillary (用户可以纠正机器生成的交通标志检测)

策略 5:开发副业务

一个似乎特别受计算机视觉创业公司欢迎的策略是有针对性地向用户提供一个免费的、特定领域的手机app。

Clarifai、HyperVerge和Madbits(2014年被Twitter收购)都采取了这一策略，它们向用户提供能够为自己的核心业务收集额外图像数据的照片应用。

Source: Clarifai(来源于Clarifai)

这个策略并不是完全没有风险(毕竟，成功开发和推广一个app是要花费时间和金钱的)。创业公司还必须确保他们创建了一个足够强大的使用案例，能让用户乖乖交出他们的使用数据，即使在开始时缺少数据网络效应的优势。

适用对象：初创企业/横向平台

例子：

Clarifai(Forevery，可用来发现新照片的应用程序)HyperVerge(Silver，可用来组织照片的应用程序)Madbits(Momentsia，可用来拼贴照片的应用程序)

策略6：数据陷阱

另一种收集有效数据排放的方法是构建Matt Turck所谓的“数据陷阱”(Leo Polovets已经给了这个策略一个不太可爱的名字：“特洛伊木马收集数据法”)。目标是创造一些即使在没有机器学习的情况下也有价值的东西，然后以收集数据的成本出售(即使其中的边际效益很小)。与之前的策略形成对比的是，构建数据陷阱是创业公司商业模型的核心部分(而不仅仅是一个副业务)。

一个相关的例子是Recombine，一家临床基因检测公司，通过提供生殖力测试服务来收集DNA数据，然后可以将DNA数据用机器学习进行分析。另一个例子是BillGuard(被Prosper于2015年收购)，一家提供了一个帮助信用卡用户争取“灰色费用”的移动端app的创业公司。该应用程序帮助BillGuard获得大量之后还可以用于其他目的欺诈数据。另一边Telsla也正在使用这个策略。作为拥有超过10万辆(配有传感器的)车辆正被用于行驶的公司，Tesla目前正在建造最大的自动驾驶训练数据集(每天可以收集比Google更多的自动驾驶里程)。

适用对象：经营垂直整合业务的企业

例子：

Recombine(提供生育力测试来收集DNA数据)BillGuard(提供移动应用程序来收集欺诈数据)Tesla(当驾驶员使用自动驾驶功能时收集数据)

策略7：公开可用的数据集

一个许多创业公司都屡试不爽的策略是在公开来源中挖掘数据。像“普通抓取”这样的网络存档包含多年网络爬虫收集的免费原始数据。另外，像Yahoo或Criteo这样的公司已经向研究界发布过了大量数据集(雅虎发布了13.5 TB的未压缩数据!)。随着最近政府公开数据库的蓬勃发展(由奥巴马政府引领)，越来越多的数据来源正在免费公开。

几家机器学习初创公司已经在利用公共数据了。当Oren Etzioni开始Farecast(由Microsoft于2008年收购)时，他使用了在旅游网站抓取信息而获得的12,000个价格观察样本。同样，SwiftKey(由Microsoft于2016年收购)在早期收集并分析了数十亿网页爬虫数据，来创建它的语言模型。

适用对象：可以识别相关公共数据集的初创公司

例子：

Farecast(第一版从旅游网站爬取的信息)SwiftKey(抓取网页文字来创建语言模型)The Echo Nest(每天爬取数百万个音乐相关网站)Jetpac(将公共Instagram数据用于其移动应用程序)

策略8：第三方数据许可

访问第三方数据的另一种方法是通过外部数据提供者提供的API或通过在第三方移动应用程序中实施SDK来抓取数据(理想情况下是终端用户同意)来得到许可。在这两种情况下，创业公司都要支付另外一方来处理为某个目的而生成的数据，然后应用机器学习从该数据中提取新价值。

Farecast和Decide.com(均由Oren Etzioni创立)已经成功地实施了这一战略。开放的数据平台，如Clearbit或Factual是外部数据提供者的典范。在使用第三方数据来挖掘预测信息的公司中，也有几家对冲基金和算法交易公司(正在使用非传统数据集，如Orbital Insight或Rezatec等创业公司的卫星数据)。

适用对象：依靠第三方数据的创业公司(如行业数据)

例子：

Farecast(通过航空公司的数据使用许可来预测机票价格)Decide.com(通过电子商务的数据使用许可来预测价格)Building Radar(使用ESA卫星图像来监测建设项目)

战略9：与大企业协作

对于初创企业，数据提供者可能是提供相关数据处理权的大客户。在这个策略中，创业公司向客户出售问题的解决方案(如减少欺诈)，并使用客户的数据训练其学习算法。在理想情况下，从一个客户或实例中做的数据学习可以转移给所有其他客户。例如在测谎领域的Sift Science和SentinelOne。

采用这种方法的难点在于如何在前期做好谈判，确认通过数据学习到的信息都归创业公司所拥有，而数据本身仍是顾客的资产。鉴于大型公司通常具有严格的规则，并且对共享专有数据非常敏感，这是很容易产生分歧的地方。

适用对象：企业创业公司

例子：

Sift Science(使用公司特有数据查找独特的欺诈信号)SentinelOne(销售终端保护软件的网络安全初创公司)Skytree(开发用于企业使用的机器学习软件)

策略10：小型收购

Matt Turck列出了许多公司的收购方式，以获得特别相关的数据集(类似于收购有价值的专利组合)。例如，IBM Watson在2015年进行了四次与数据有关的收购，将其卫生部门转变为世界上最大和最多样化的健康相关数据库之一。

由于这种方法需要资金支持，所以可能只对于拥有充裕资金的创业公司来说是可行的。

适用对象：(后期)有足够资金的创业公司

示例：难以确定(数据是收购的唯一原因)

很可能还有其他数据采集策略在这里没有提到(如果是，请给我留言)。除此之外还有几个初创公司可以用来解决数据问题的算法技巧(例如传输学习，MetaMind使用的一个技术)。

无论您采取何种策略，关键信息是：获取和拥有大型特定领域的数据集以构建高精度模型可能是创业者一开始就需要解决的最难的问题。在某些情况下，它涉及到找一个能快速解决问题但不是长久之计的方案，比如雇佣人类来假装是人工智能(像许多聊天机器人创业公司那样)。在其他情况下，它要求企业大大地延长免费周期，限制测试版的公开发布，直到机器学习的好处开始发挥作用而且客户愿意为此付费。

这些策略和例子来自与企业家们的谈话以及几个博客文章，其中包括内森·贝纳奇(Nathan Benaich)(这里here)，克里斯·迪克森(Chris Dixon)(这里here)，弗洛里安·杜特奥(Florian Douetteau)(这里here)，利奥·波洛维奇(这里here)，马特·图克(Matt Turck) (这里here)。

原作者 | Moritz Mueller-Freitag 编译 | 笪洁琼万如苑一针

来源：大数据文摘

（END）

杭州市卫生信息中心

微信号：zjhzhic

推荐：八个靠谱的数据集，含医学影像、语意转换、药物信息提取等