文|《中国科学报》记者冯丽妃
“人家凭什么给你交数据?”作为国家微生物科学数据中心和中国科学院微生物科学数据中心主任,马俊才时常这样问自己。
“数据中心不是档案库,我们也不是‘官老爷’,一定要给对方提供所需的增值服务。”从事数据库建设多年,这是他的深切体会。
国家微生物科学数据中心和中国科学院微生物科学数据中心的前身,可追溯至30多年前成立的中国科学院微生物研究所(以下简称微生物所)微生物科学数据库。
近年来,该数据库不断脱胎换骨,升级换代。一个“变”字,或许最能体现微生物所研究员马俊才这些年来的感触:数据平台变了、数据来源变了、工作内容也变了……不过,万变不离其宗,该中心服务用户和国家需求的目标始终如一。
“变”中升级
数据与实物资源并存,这可能是国家微生物科学数据中心有别于大部分数据库的一个特点。“微生物研究离不开实物,这里的大多数数据都有相对应的微生物菌种资源。”马俊才介绍。
上世纪80年代,我国信息化发展开始起步。年,微生物所响应时代召唤,建立了微生物科学数据库。
35年来,该数据库在国家支持下飞速发展,芝麻开花“节节高”——
年,中国典型培养物保藏委员会信息中心成立,实现了中科院全部生物资源信息的汇集。
年,世界微生物数据中心(WDCM)经过全球各单位激烈竞争落户微生物所。该中心牵头制定的一系列国际研究计划和数据管理标准使我国实现了微生物数据领域的国际“领跑”。
年,该中心的发展迎来新起点——国家微生物科学数据中心作为20个首批国家级科学数据中心之一启动,微生物所成为牵头单位,中心的职能发生了巨大转变。
“最初的科学数据共享平台转变为国家权威数据管理和发布平台;自有数据的管理转变为全国整个领域的科技计划数据的汇交;原来本单位的数据共享转变为对国家数据资源进行管理、挖掘和应用。”作为该数据库发展的亲历者,马俊才说。
转变,是发展的机遇,也是挑战。
马俊才表示,国家微生物科学数据中心有两大职责:建设作为关键核心的微生物数据整合、分析、应用和安全保障体系;建立自主、安全、易用且具有国际影响力的微生物科学数据应用生态体系。
打铁还需自身硬。为实现这一目标,该中心不断探索新的发展模式。
为吸引用户积极汇交数据,该中心率先建立了与国际数据汇交体系接轨的全流程一站式数据提交模式,其发布的数据编号可在国际期刊直接使用,支撑中国科学家发表文章时的数据存储、共享,助力我国科学家科学数据的快速发布。
在专业人才队伍建设方面,为解决编制、经费不足等问题,该中心设立了比在编职工薪酬待遇更高的人才派遣制度,保证了队伍的稳定性,同时提高了队伍的新鲜血液输送能力。
该数据中心不只是单打独斗,近10年来还形成了涵盖6个分中心及应用微生物联盟、病原大数据联合中心、食品安全大数据联合中心等多个合作联盟在内的数据资源体系架构,在数据管理、应用与挖掘方面不断向更深、更实迈进。
超越“有用”
年2月20日,新冠疫情肆虐之初,微生物所研究员齐建勋向国家微生物科学数据中心提交了一组关于新冠病毒S蛋白与受体ACE2复合物高分辨率晶体结构的数据。仅用了半天时间,数据便上了线,随后其下载量迅速超过1万次。
而齐建勋2月19日投给PDB国际生物数据库的数据一个月后才上线。
“特殊时刻必须迅速响应。如果我们晚一天,就可能被国外抢发。”国家微生物科学数据中心副主任吴林寰介绍,该中心一般在数据提交一至三个工作日就能完成审核并发放编号。
“近五年来,国家改革力度很大,要求所有科研项目均向国家数据中心汇交数据。对我们来说,让别人交数据,也要让对方能够在数据服务链条上受益。”马俊才认为,数据中心要超越档案管理这种最基本的“有用之用”。
据介绍,国家微生物科学数据中心不仅提供数据管理、汇交、集成等“基础”服务,还提供数据调用、下载、分析、报告产出等“增值”服务。
仅在年到年,该中心就汇交了包括合成生物学、食品安全关键技术研发、公共安全风险防控等19个领域的项国家科技计划项目数据,汇集菌种数量逾3.9万份,实物标本数量超过5.8万份。
面对国家紧急需求,该平台更是雷厉风行。
年1月24日是大年三十。当天,国家微生物科学数据中心迅速建成新冠病毒国家科技资源服务系统,并在全球发布首个新冠病毒电镜照片及毒株信息。该系统目前已为全球个国家和地区的名用户提供了多万人次的数据浏览和检索,为中国积极开展国际合作、实现全球数据共享打开了“一扇窗”。
在抗疫的“火线”上,该中心多次向国家相关机构提交关于北京新发地疫情、基因变异等分析报告,成为国家相关报告的重要组成部分;其搭建的新冠虚拟突变库利用AI模型预测潜在基因变异,为开展病原传播机制与途径、疫苗与药物设计辅助预测等研究提供了重要支撑;建设的重要病原体虚拟突变库和基于人工智能的风险预警评估体系可动态显示全球新冠变异等信息,向全球用户免费开放……这些作为科技抗疫的典型成果,入选国家“十三五”科技创新成就展,国家微生物科学数据中心也因此获得科技部全国科技系统抗击新冠肺炎疫情先进集体的表彰。
据介绍,目前国家微生物科学数据中心已汇聚一系列高质量数据产品,如中科院42个研究所76个馆藏单位的万馆藏实物资源的数据,来自国家科技计划以及期刊、测序公司等不同领域的数万份微生物数据和实物资源,以及基于WDCM的来自51个国家个保藏中心的52万微生物资源。
这些数据成为“盘点”我国,乃至全球微生物及其遗传资源“家底”的重要依据。
基于此,该中心的“增值”服务延伸到了国外。它联合10多个国家相关领域的专家,制定了第一个国际标准化组织(ISO)微生物资源数据标准,解决了长期以来由于各国微生物资源中心数据管理形式不同带来的共享阻碍。它还帮助我国微生物产业ISO参考用菌实现“零的突破”,使我国44株菌成为ISO菌,保障了我国相关生物产业发展。
该中心主导发起的全球万种微生物模式菌株测序计划目前已有16个国家的25个微生物保藏机构参与。
据悉,目前全世界科学家已发表的模式细菌有种,其中已经测序的仅有种。
“万种菌株测序项目的数据产品无疑将为原核物种的鉴定提供急需的国际平台,它将是任何与微生物相关的研究和开发不可或缺的基础设施。”世界微生物菌种保藏联合会主席IpekKurtboke和日本DNA数据库前主任HideakiSugawara评价说。
目前,国家微生物科学数据中心的“虹吸效应”已经凸显,其全球微生物实物资源目录中91.5%的数据来自国际合作伙伴。这与马俊才和团队时刻惦记为用户提供“个性化服务”的理念分不开,例如他们为每个国际数据提交机构提供其微生物资源数据全球使用情况的分析报告,盘点其对全世界所作的贡献,从而获得相关国家的