数据集说明
为了应对COVID-19大流行,白宫和主要研究小组的联盟已准备好COVID-19开放研究数据集(CORD-19)。CORD-19的资源超过44,000篇学术文章,其中包括29,000篇以上的全文,涉及COVID-19,SARS-CoV-2和相关的冠状病毒。该免费可用的数据集提供给全球研究界,以应用自然语言处理和其他AI技术的最新进展来产生新见解,以支持正在进行的与这种传染病的斗争。由于新的冠状病毒文献的迅速发展,这些方法的紧迫性越来越高,这使得医学研究界难以跟上。
我们正在呼吁世界各地的人工智能专家采取行动,以开发文本和数据挖掘工具,这些工具可以帮助医学界找到对高度优先的科学问题的答案。CORD-19数据集代表了迄今为止可用于数据挖掘的最广泛的机器可读冠状病毒文献集。这使全球的AI研究社区有机会应用文本和数据挖掘方法来查找此内容中的问题的答案,并在此内容之间建立见解,以支持全球正在进行的COVID-19响应工作。由于冠状病毒文献的迅速增加,这些方法的紧迫性越来越高,这使得医学界很难跟上。
在此数据集的“ 任务”部分下,可以找到我们最初的关键问题的列表。这些关键科学问题来自NASEM的SCIED(美国国家科学院,工程学和医学会新兴传染病和21世纪健康威胁常设委员会)研究主题以及世界卫生组织针对COVID-19的研发蓝图。
其中许多问题都适合进行文本挖掘,我们鼓励研究人员开发文本挖掘工具以提供有关这些问题的见解。
每篇论文都表示为一个JSON对象。该架构在此处可用。
描述:
数据集包含来自以下来源的所有COVID-19和与冠状病毒相关的研究(例如SARS,MERS等):
- 使用此查询的 PubMed的PMC开放获取语料库(COVID-19和冠状病毒研究)
- 世卫组织维护的语料库的其他COVID-19研究文章
- 使用与PMC相同的查询进行bioRxiv和medRxiv的预印本(COVID-19和冠状病毒研究)
我们还提供了包含44,000个冠状病毒和COVID-19研究文章的综合元数据文件,并链接到PubMed,Microsoft Academic和WHO WHO COVID-19出版物数据库(包括没有开放阅读全文的文章)。
我们建议在可用时使用综合文件中的元数据,而不是在数据集中解析元数据。请注意,在有补充材料的情况下,数据集可能包含单个PMC ID的多个条目。
该存储库链接到WHO冠状病毒疾病出版物数据库和其他资源,例如Microsoft Academic Graph,PubMed和Semantic Scholar。由Chan Zuckerberg Initiative,乔治敦大学安全与新兴技术中心,Microsoft Research和美国国立卫生研究院国家医学图书馆组成的联盟共同提供了这项服务。我们也感谢并感谢Unpaywall为部分数据集提供了开放访问许可证信息。
10个待挖掘的关键问题
为帮AI大神指明数据挖掘方向,Kaggle在官网公布了10个现阶段的关键问题:
1.对冠状病毒传播、潜伏和环境稳定性了解多少?
2.对COVID-19的危险因素了解多少?
3.对冠状病毒的遗传学、起源和进化了解多少?
4.需要提交样本的样本任务——帮助了解地理位置如何影响病毒传播目前已经发表的医疗保健相关内容?
5.目前已经发表的医疗保健相关内容?
6.目前已发表的出于伦理和社会科学考虑的内容有什么?
7.目前已经发表的在信息共享和跨部门合作方面的内容有什么?
8.目前对非药物干预了解多少?
9.对疫苗和治疗方法了解多少?
10.对疾病的诊断和监控了解多少?
上述10个问题关键问题来源于美国国家科学工程医学研究院下设的新兴传染病和21世纪健康威胁委员会的研究主题和世界卫生组织针对COVID-19的研发蓝图。
全球 COVID-19 研究数据集正式开放
近日,科技界、学术界正式宣布了一个公开数据集 CORD-19,内含截至 3 月 13 日的所有新型冠状病毒的论文,并包含针对文本进行优化的文本处理工具包 SciSpacy、在科学文本上进行预训练的 BERT 模型 SciBERT、开放研究语料库和 API 等,汇集了有关 SARS-CoV-2 病毒内容在内的共计近 3 万篇文献。
根据相关人员介绍,新的数据集是机器可读的,可以轻松进行解析以用于机器学习目的。为了让研究人员可以快速梳理清楚数据,美国国家科学、工程和医学研究院与世界卫生组织合作,提出了与冠状病毒有关的“高优先级”问题,这些问题与遗传、治疗、症状和预防等相关。
此前,全球已有包含美国、意大利、韩国、英国等在内的 11 个国家和地区要求相关机构开放这些数据集,以供研究。这里的相关机构包括 PubMed Central(美国国立卫生研究院提供的一项服务, 存档生物医学, 生命科学科研文献)和世界卫生组织的 Covid 数据库。在呼吁开放数据集的公开信中写道:
希望发布者可以提供相关的 AI 软件和计算机系统可以直接读取和使用的数据格式,而不是一个简单的 PDF 文档。
除了用于研究,相关机构也需要对内容进行筛选。此前,很多研究人员已经发布了不少与疫情相关的研究成果,但由于时间问题,不少论文都属于“预印本”状态,未经同行评审,可能存在一些问题,需要审查。《新英格兰医学杂志 (NEJM)》执行主编 Edward Campion 就曾表示:
我们每天收到多达 20 份关于冠状病毒的报告,坦率地说, 其中一些并不是高质量的文章。我们的部分责任是选择我们认为对临床受众和公共卫生受众最重要的内容。
值得注意的是,Kaggle 还围绕此主持了一场 COVID-19 开放研究数据集挑战赛,旨在激发开发人员使用 CORD-19 来寻找有关本次疫情如此大规模流行的新见解,包括该病毒的历史、传播和诊断,人畜接触的管理措施,先前流行病学研究的经验教训等。Kaggle 为获奖者提供了每项任务 1000 美元的奖励,其他奖品和详细信息参照挑战赛官网说明。
疫情致许多实验室关闭,开放可提高生产力
因新冠病毒疫情影响,哈佛最近在陆续关闭实验室或大规模缩减实验室成员,这样的事情同样发生在其他实验室,这导致疫情相关的很多研究开展受阻,业界需要开放数据集进一步提高生产力。
通常,实验室是根据当地爆发的程度来决定运营方式,但目前全球疫情爆发严重,有些实验室陆续关闭,有些不鼓励继续研究,开放的一些机构虽然允许人员进入实验室,但也在控制人数,最大程度避免聚集在建筑物中的人数。爱荷华大学长期致力于冠状病毒研究的研究员 Stanley Perlman 表示:
已经不再允许学生在实验室里工作,而且研究生有一定的限制。这样一来,可以同时限制人数,并减少有人传播 SARS-CoV-2 病毒的机会。
这也在一定程度上影响了疫情的相关研究,研究人员表示,公共卫生和实验室成员的安全至高无上,但他们仍然担心离开实验室数周或数月将意味着必须重新启动某些项目或放弃实验,浪费时间和资源。约翰霍普金斯大学彭博公共卫生学院分子微生物学和免疫学教授 Arturo Casadevall 表示:到目前为止,我们保持开放状态,但情况非常不稳定。据了解,他正在研究针对 Covid-19 的治疗方法。
中国科学家贡献了大量研究和数据
早在一月份,在疫情被宣布为国际公共卫生紧急事件前,中国科学家就快速分享了 SARS-CoV-2 病毒首个基因组信息。去年 12 月底,武汉首次报告了新型冠状病毒肺炎。1 月 8 日,中国科学家完成了病毒基因组测序,并将其公开,以便让全世界的科学家投入到对抗 SARS-CoV-2 的战役中。
今年 1 月 31 日,也就是新型冠状病毒成为全球关注的突发公共卫生事件的第二天,94 家学术期刊、学会、研究机构和公司就曾签署了一项协议, 承诺至少在疫情爆发期间免费提供有关该疾病的研究和数据。
签署了这项协议的《公共科学图书馆(PLOS)》一直是开放获取,他们向作者而不是读者收取费用。PLOS 的主编 Joerg Heber 表示:
公共科学图书馆已做好应对任何疫情的准备。除了开放获取外,该期刊还要求复制研究所需的所有数据与之一起发表。尽管如此,同行评议研究仍然需要时间,因此 PLOS 强烈鼓励所有提交与冠状病毒相关论文的研究人员将这些论文作为预印本发表,以便尽快获得。
如今,汇集了所有研究成果的数据集正式开放,这不仅可以加速疫情的研究过程,同样可以对相关传染病的研究提供经验。