数据集说明
为了应对COVID-19大流行,白宫和主要研究小组的联盟已经准备好了COVID-19开放研究数据集(CORD-19)。CORD-19的资源超过59,000篇学术文章,其中包括超过47,000篇全文,涉及COVID-19,SARS-CoV-2和相关冠状病毒。该免费的数据集已提供给全球研究社区,以应用自然语言处理和其他AI技术的最新进展来产生新见解,以支持正在进行的抵抗这种传染病的斗争。由于新的冠状病毒文献的迅速发展,这些方法的紧迫性越来越高,这使得医学研究界很难跟上。
呼吁采取行动
我们正在呼吁全球的人工智能专家采取行动,以开发文本和数据挖掘工具,这些工具可以帮助医学界找到对高度优先的科学问题的答案。CORD-19数据集代表了迄今为止可用于数据挖掘的最广泛的机器可读冠状病毒文献集。这使全球的AI研究社区有机会应用文本和数据挖掘方法来查找此内容中的问题的答案,并在此内容之间建立见解,以支持全球正在进行的COVID-19响应工作。由于冠状病毒文献的迅速增加,这些方法的紧迫性越来越高,这使得医学界很难跟上。
在此数据集的“ 任务”部分下,可以找到我们最初的关键问题的列表。这些关键的科学问题来自NASEM的SCIED(美国国家科学院,工程学和医学会新兴传染病和21世纪健康威胁常务委员会)研究主题以及世界卫生组织针对COVID-19的研发蓝图。
其中许多问题都适合进行文本挖掘,我们鼓励研究人员开发文本挖掘工具以提供有关这些问题的见解。
我们正在维护社区贡献的摘要。有关如何使您的贡献有用的指导,我们正在维护一个论坛主题,并从医疗保健政策社区获得反馈。
访问数据集
该数据集还托管在AI2的语义学者中。然后,您可以使用AI2的新COVID-19资源管理器搜索数据集。
每个数据集的许可证都可以在全部_来源_元数据csv文件中找到。
致谢
该数据集由艾伦(Allen)人工智能研究所与Chan Zuckerberg Initiative,乔治敦大学安全与新兴技术中心,微软研究院以及美国国立卫生研究院国家医学图书馆合作,与美国白宫办公室合作创建。科技政策。