洞查数据背后MSRA 推出新冠数据分析网站

摘要:

这场疫情再次拉近了我们和科学家之间的距离。疫情之下,科研人员的一次次探索与发现,都成为公众关注的焦点和政策制定的依据。获取最新科研信息,对我们建立更立体、客观的新冠疫情认知,有着关键意义。

近日,微软亚洲研究院(Microsoft Research Asia,MSRA)推出了一个新冠数据分析网站 COVID Insights,旨在通过较为全面的疫情数据,达到支持学术研究和向公众科普的目的。

COVID Insights 网站基于计算生物学、数据分析等领域的专业知识和研究经验,使用了约翰霍普金斯大学、美国疾病控制与预防中心、GISAID 等机构的官方数据,主要分为感染数据分析、基因组和蛋白质结构、研究趋势三大板块。


跨国家或地区比较传播动态

哪些地区的疫情发展趋势比较接近?有些国家的数据降下来了,他们的做法值得参考吗?

实质上,“感染数据分析”板块对这类问题给出了答案——通过微软亚洲研究院对 COVID-19 数据的分析,流行病学参数对特定国家与地区的疾病传播动态的影响便一目了然。

例如,澳大利亚 2020 年 2 月 3 日至 2020 年 4 月 26 日的疫情传播趋势与冰岛 2 月 1 日至 4 月 17 日的趋势相似度为 56%,因此冰岛便可以借鉴澳大利亚的疫情防控措施。

而通过移动光标的位置,将时间限定在 3 月 22 日至 4 月 15 日,可以发现这一时期澳大利亚的传播趋势与韩国在 2 月 29 日至 3 月 17 日的趋势相似度为 80%,因此澳大利亚便可以参考韩国在 2020 年 3 月中下旬的防控措施。

众所周知,当前美国新冠肺炎确诊人数逼近 100 万,若利用这一功能,我们可以看到 3 月 20 日至 4 月 26 日(目前该功能的数据只更新至 4 月 26 日)美国的疫情发展趋势和两周前的伊朗有 75% 的相似度,那么此时参考对方的措施不失为一种可行的方案。

这一功能的数据集来源于约翰霍普金斯大学系统科学与工程中心公布的新冠疫情数据。

SARS-CoV-2 的病毒学分析结果

相比上述板块,“基因组和蛋白质结构”板块则显得比较抽象了,该板块展示了 SARS-CoV-2(新型冠状病毒)的病毒学分析结果,主要将目光放在 SARS-CoV-2 病毒本身,主要包括以下两个功能:

第一,基因组与蛋白质结构

前不久,外媒“新冠病毒来自武汉”的说法引起了轩然大波。实际上,早在 2020 年 2 月 20 日,中国科学院西双版纳热带植物园就曾发布了研究成果,称武汉华南海鲜市场的新型冠状病毒是从其他地方传入的 ,于是便出现了新冠病毒“国外起源论”。

在这一研究中,有一幅非常复杂的图,实际上就反映出了病毒基因组变异的问题。实际上,就病毒基因组变异而言,如今全球已经有了很多的研究数据。

根据网站介绍,微软亚洲研究院从全球流感序列数据库 GISAID 上下载了 SARS-CoV-2 基因组数据,以病毒株 Wuhan-Hu-1 作为参考序列确定出各病毒序列发生变异的氨基酸及其位置。

因此,通过在下拉列表中选定某一个大洲,我们就能直观地看到特定核酸片段上发生变异的氨基酸的数目、地区分布与变异时间线。

同时,网站上经 SARS-CoV-2 病毒核酸序列转化得到的蛋白质三维结构,也为相关研究提供了参考。

第二,与其他冠状病毒的比较

据了解,当前在全球肆虐的 SARS-CoV-2 病毒是目前已知的第 7 种可以感染人的冠状病毒,其余 6 种中就包括我们可能已经不陌生的 SARS-CoV(引发“非典”的病毒)和 MERS-CoV(引发中东呼吸综合征的病毒)。

除了拿 SARS-CoV-2 与 SARS-CoV、MERS-CoV 进行比较,在 COVID Insights 网站上还有 SARS-CoV 和另外两种病毒的比较。

值得一提的是,这两种病毒 Bat-CoV 和 Pangolin-CoV 分别来自此前新冠病毒潜在中间宿主的热门人选中华菊头蝠和马来穿山甲。

根据 COVID Insights 网站,Bat-CoV、Pangolin-CoV、SARS-CoV、MERS-CoV 与 SARS-CoV-2 的相似度依次递减,分别为 96%、90%、79%、49%。

全球新冠研究趋势

2020 年 1 月 1 日至 2020 年 4 月 22 日,众多领域科研人员都做出了非常多的研究。微软亚洲研究院通过统计、整合论文开放获取数据库 COVID-19 Open Research Dataset 的数据,根据不同时间段(按周统计),做出了流行病学、社会科学、 病毒学、诊断学四个领域的新冠研究趋势词云。

因此我们可以发现,2020 年 2 月 26 日至 2020 年 3 月 4 日那一周,流行病学研究中“transmission”(传播)一词出现的频率较高。

2020 年 4 月 8 日至 2020 年 4 月 15 日那一周,社会科学研究中,“number”(数字)一词成为关键词。

值得一提的是,COVID Insights 网站也将流行病学、社会科学、 病毒学、诊断学四个领域的高引用论文列了出来,这样一来,公众也在某种程度上降低了受低质量论文误导的风险。

实际上,近一段时间以来,疫情相关的学术论文呈现出井喷式增长态势,低质量研究论文泛滥的现象也相当严重。2020 年 4 月 23 日,卡内基梅隆大学道德与政策中心主任 Alex John London 和麦吉尔大学生物医学伦理部教授兼主任 Jonathan Kimmelman 也在《科学》杂志发表文章,发出呼吁:

不应以 COVID-19 疫情爆发的紧迫性为借口,在病毒研究和疫苗研发等方面降低科研标准。

可见,虽然 COVID Insights 网站目前的数据并非特别全面,但的确在加速优质科研信息的互通互享方面发挥了重要的作用。正如比尔·盖茨所说:

这次疫情是现代社会第一场真正意义的大流行病。这就像一场世界大战,不同的是,这次我们都在同一条战线。

查看评论
created by ceallan