国外Data Curation研究综述

——以2011年江苏高考18题为例

作 者:
王晴 

作者简介:
王晴,男,1986年生,山西大学经济与管理学院2011级情报学硕士研究生。

原文出处:

内容提要:

e-Science环境下科学数据的有效管理和开发利用至关重要,Data Curation(DC)是一项持续性的动态管理活动,具有重要的短期效益和长期价值,DC引起了国外学界的普遍关注。大学社区和科研机构就此展开了一系列卓有成效的实践探索,图书情报学院相继开设了具有针对性的教育培训课程以塑造未来的DC专业人才,DC实施主体针对发展现状提出了改进方案或战略规划以支持DC的可持续发展。


期刊代号:L1
分类名称:情报资料工作
复印期号:2014 年 01 期

字号:

      “e-Science”一词通常指借助于网格技术,旨在推进数据、资源和通信的统筹和分布式共享而进行的大规模科研合作,观测数据和实验数据催生了大量的典型和通用数据类型,数据收集和开发的Curation工作对结果验证、后续试验和积累分析起到至关重要的作用。尽管如此重要,但是只有极少量的科研产出得到了有效管理和维护(curated),为了促进科研投入收益的最大化、研究得以验证和拓展,减少数据损失并提高科学解释的精确性,应当施行强有力的Curation实践以化解潜在的风险,确保数据的溯源性(provenance)、完整性(integrity)以及再利用的可靠性(reliable)。科研数据量的指数级增长以及不断涌现的新技术,给数据管理和开发活动带来挑战和危机,同时,科研数据的有效管理和充分开发能够促进知识创新,两者是不可分割的互动关系,国外学者在21世纪初就对数据的管理及相关问题作出了探索性研究并付诸实践,这对改善科研数据的应用环境起到了理论支撑和实践指导作用,积极借鉴和吸收国外的先进经验对促进我国的科研创新有重要意义。

      1 Data Curation科学内涵及价值

      1.1 Data Curation的基础定义

      英国Digital Curation Centre(DCC)[1]对Digital Curation(DC)下了明确的定义:DC是指在数字化研究数据的生命周期内产生的维护、保护和增值数字化数据的动态管理活动,目的是减少长期研究价值的威胁,降低数字老化的风险,置于可信的数字化存储库中的“Curated Data”,可以增进英国研究界的数据共享并减少研究数据创建工作中的重复劳动,增强高质量科研的可用性以提高现有数据的长期价值,这里的“Digital”实质上是“Digital Research Data”的缩写,DCC认为DC和“Data Preservation”是正在进行中的动态过程,需要深思熟虑以及充足时间和资源的投入,参与者必须做到心中有数并采取行动以促进整个数据生命周期Curation和Preservation的有效性。美国伊利诺伊大学(UI)图书馆与信息科学(LIS)研究生院认为,Digital Curation是主动的、持续性的数据管理,这一管理活动伴随着数据的生命周期并对学术、科学和教育大有益处,DC通过认证、归档、管理、保存和表示来促进数据发现和检索、保持数据质量、增加价值并提供重复利用[2]。Adrian Cunningham[3]从档案工作者的角度分析了Digital Curation、Digital Archives和Digital Libraries的联系和区别,他认为Digital Curation不仅是档案材料的数字化采集管理,数字化记录的Curation实质上是截然不同的Curatorial活动,是为了保证数字归档(digital archiving)这一不同术语的使用而进行的名词划分,从记录保存的视角看,Digital Archives 一词已经被误用和曲解,因此掩盖了与档案资源的采集和长期管理等根本性问题,数字归档是一个贯穿于记录保存过程的介入活动,正如开放档案信息系统(OAIS)参考模型的缺陷性一样,忽略了档案活动的预先摄取需求,Digital Curation的价值在于跨越整个数字信息生命周期的各个流程并通过相关专业的努力从而团结成一个连贯的整体。

      1.2 Data Curation的内涵界定

      Lord P.和A.Macdonald[4]对“Curation”、“Archiving”和“Preservation”三个相似的活动做了内涵界定。他们认为,“Curation”是管理和推广数据使用的一系列活动,以确保它符合当前的宗旨、发现和再利用,对于动态数据集,这意味着不断丰富和更新以保持灵活的适用性,高水平的“Curation”活动也将涉及维护注释和其他已发表材料的链接。“Archiving”是一项“Curation”活动,目的是确保数据的最佳选择、存储和获取,它的逻辑和物理完整性是指随着时间的推移,能够不断地保持科学数据的安全性和真实性。“Preservation”是包含在“Archiving”内的活动,保持特定的数据项,随着时间的推移能够通过技术变革来保证数据可以被访问和理解,因此,从广义上讲,“Preservation”是“Archiving”的一个方面,而“A rc hiving”是“Curation”根据需要而选择的一项活动,三者的管理关系随着时间的变化而不断调整和深化。Helena Karasti和Karen S.Baker等[5]认为,e-science环境下的“Data Curation”具有丰富的科学内涵,公共资助数据的开放存取是一项令人钦佩的活动,也是实践中难以彻底贯彻执行的政策,同时也为科研的实际行为、高质量数据的Curation活动以及长期管理工作带来了前所未有的挑战,“从事科研”实践中的数据挑战是普遍存在的,包括自动数据采集的e-Science将改变常规的基础性科学决策类型和所拥有的生态基础,从一开始就要考虑周全是面对Data Curation不断变化的主体意识必不可少的应对措施,Curation和管理工作(Stewardship)虽然都是针对数据展开的,但是对数据本质(Nature of Data)、生命周期以及科研环境的看法却不尽相同,e-Science文献的Data Curation贯穿于数据摄入(Ingestion)、归档(Archive)和交付(Delivery)等指引和程序的组织和监督过程中,而Data Stewardship只是提供了一个宏观的概念框架,包括回溯过去、了解现状以及未来规划等,涵盖了从数据规划到数据采样,从数据归档、利用到再利用等一系列过程,包括数据定义、需求分析、质量保证、反馈、再设计以及数据交换等数据关怀(Data Care)和信息基础工作。

原文参考文献:

  • 92

相关文章: