大多科研人员从参与科学研究开始,就在不断产生数据,但随之而来的问题是,许多研究人员在改换研究方向或者作为学生毕业后,大多数据也就消失了,即使 保留在实验室,也因为缺乏很好的数据管理规范而名存实亡,因为他人可能无法看懂这些数据,更不用说重复利用了。我在这方面的体会颇深,从1995年开始, 曾经参与了中国科学院生物多样性数据库方面的开发工作,之后(2003年)在崇明东滩建立了碳通量观测站,开始接触了海量的微气象学和环境数据,也一度为 众多的数据形式一筹莫展。特别在自己作为课题负责人领导一个团体一起工作的时候,更为数据的集成、归档和继承问题费尽了心思,一直渴望有一个标准的管理形 式或地盘能很好地保存这些数据让他人能方便地利用。虽然从参与FLUXNET,Ameriflux和Asiaflux等国际通量网络中获得了一些认识,但 一直并未从根本上解决众多生态学数据管理的问题。直到有一些数据杂志(Data Journal)相继推出,我才慢慢明白这种新型的数据管理方式与我曾经的渴望是那么一致。 谷歌的Peter Norvig说,“科学是收集事实和发展理论的结合,二者都不可能自己进步。在科学史上,费尽各种周折去积累事实是主要的模式,并非有什么新奇的”。每个 人都希望用更好的方法来产生和研究现有数据,也希望能合法地使用他人产生的数据。但是要让数据得到广泛的重利用,科学家们需要知道数据是如何产生的,以及 进行了何种针对数据质量控制的实验。他们需要访问有关数据输出、文件格式、样品标识和实验重复规范等方面的详细说明。实话说,这是一项极其艰苦的工作,一 般也得不到什么回报,因此许多潜在有价值的数据并没有发表出来,或者没有完全向公众公布,或者没有足够的细节来描述如何对数据进行重新利用。 Wiley集团的副主席Mike Davis表示:“目前,有一种活动愈来愈受重视——支撑关键发现的数据被更多的人访问,从而使数据的进一步分析和结果的解释得到促进。与此同时,不论是 研究者创建和获取大型新数据集的能力,还是他们在更大范围的数据仓库中存储和检索数据的能力,都在迅速增强。因此,为了响应这一重要发展趋势,Wiley 推出了新期刊Geoscience Data Journal(GDJ)。”该刊于2012年7月16日,是Wiley开放获取出版计划的一部分,其将仅以在线方式发行,主要发表短篇的地球科学数据论 文,这些论文则与存放在经认可的数据中心的数据集,并与数字对象识别(DOI)关联起来。具体而言,GDJ的数据文章需要对数据集进行描述,并详细给出数 据来源、处理过程、使用的软件和数据文件类型等,其将涵盖从天气到气候、到海洋学、大气化学、地质学的多个主题。我还看到了 Biodiversity Data Journal (BDJ) 的出版。这份杂志在首页,以大字体显示旨在“解决生物多样性出版的瓶颈”。之后,有更多的数据杂志发行(参见网页:http://proj.badc.rl.ac.uk/preparde/blog/DataJournalsList)。 上周Nature周刊发布通告说,自然出版集团将于2014年5月推出在线出版的开放获取杂志“科学数据”(Scientific Data,本文简称SD)。 这个杂志要求作者针对数据集进行详细描述,旨在帮助科研人员发布、发现和重用研究数据,并对这个杂志提出了六个关键原则:(1)信用 (Credit):通过一个可被引用的出版物,储备和分享研究数据;(2)重用(Reuse):完整、组织化(curated)和标准化的描述,保证数据 可被重用;(3)质量(Quality):严格以学术团体为基础的同行评审;(4)发现(Discovery):找到与研究相关的数据集;(5)开放 (Open):在数据使用、重用和分布上促进和支持开放的科学原则,通过知识共享许可协议获取;(6)服务(Service):数据描述进行内部管理和快 速同行评审。SD杂志中一个新的重要文章类型是“数据描述”(Data Descriptor,本文简称DD)旨在描述有科学价值的数据集,文章将被收录到一些重要的索引服务中,从而让作者愿意与别人分享他们的数据。对广大观 测人员来说,这个通告无疑是一个福音。可喜的是,SD已经开始征集稿件了(go.nature.com/1gnd1j)。 DD的文章将采用非常成熟的同行评议,专注于数据收集过程的技术严谨性、数据完整性以及与现有共同标准的匹配度。他们将检查数据是否确实值得共享,并 特别要求审稿者不要以自己的感受,或者比较其他相关数据集的新颖性来进行评价。据称SD的编辑已经在小范围内对示范DD稿件进行了同行评议,发现科学家们 能很快适应这不同视角的同行评议。 所有的DD将遵守创作共用许可制度(Creative Commons licence),允许研究人员重用,重新分配以及混合文章的内容等。DD的格式包括“技术验证”(Technical Validation)和“用法说明”(Usage Notes)部分。这要求作者描述数据的质量,并对数据的重用提供有价值的信息,显然这样的介绍并不适合传统的研究论文格式。再者,与其他Nature子 刊一样,方法(Methods)部分是没有长度限制的,给作者留足空间让他们提供详细的实验数据可重用性的描述。DD将链接到相关的期刊文章和数据存储库 中的数据文件,帮助读者轻松地在研究、数据描述和实际的数据之间遨游。每个DD文章支持机器可读实验元数据,这有助于高级用户挖掘和查找SD的内容。元数 据记录将由内部员工组织,这样确保一致性以及可提供有用的注释,并以目前流行的ISA-Tab格式发布。 DD定位是一个发布数据集的论坛,但不会成为一个原始数据集(primary dataset)存储库。原始数据及其相关的数据描述将存储在一个或多个外部数据存储库中。这种策略有助于杂志理出一个清晰的线索,来帮助作者出版有科学 价值和可重用性的数据集,而不是控制对数据的访问。这是一个循序渐进的策略,要促进和配合现有的基础存储库,促进协作和数据整合,而不是碎片化 (fragmentation)。 |