2016年01月13日 星期三

首页 > 关于我们 > 国内外动态

大数据时代下美国地质调查局的科学新观

来源:地质调查动态 作者:杨宗喜 唐金荣 周平 张涛 金玺 发布时间:2015-03-25

  经过上千年的嬗变,科学研究理念、方法和技术已经发生深刻变化。尤其是信息与网络技术的迅猛发展,不仅改变了人们的日常生活,而且改变了科学家的思维模式,新近国际上诞生了科学研究的第四范式,即数据密集型的知识发现。与此同时,社会所面临的复杂问题越来越多,诸如环境污染问题、资源耗竭问题、生态系统问题等,这些复杂性问题依靠传统单一学科研究已很难解决,必然催生新的综合性研究或学科。


     面对如此形势,自翎为全球地质调查工作领导者的美国地质调查局率先做出响应,将以学科为主线的组织架构调整为以重大问题为主线的组织架构,新增了核心科学体系的科学使命,并于2012年6月,在其官方网站正式发布了《美国地质调查局核心科学体系科学战略(2013~2023)》,作为其今后十年核心科学研究的纲领。


    一、战略出台的背景 

  美国地质调查局成立于1879年,成立初期主要从事西部找水工作。而后,经历了多次机构调整,增加了地质矿产、地震、测绘等诸多职责,同时也剥离出美国矿业局和美国矿管局等生产性机构和管理性机构。1995年,美国地质调查局在渡过了生存危机之后,进行了深刻反省,职能不但没有削弱,相反得到了加强,矿山局的部分研究职能和生物调查研究职能也被并入,目的是打造成一个综合性科学研究和信息服务机构。历经十多年的发展,美国地质调查局重新审视其战略目标,并结合新形势制定未来十年战略计划。本科学战略出台的背景有如下三条:


    1. 地球科学研究需要适应科学研究的新范式
    在经历了几千年前以描述自然现象为主的“经验范式”的科学研究,到数百年前的一般化归纳研究为主的“理论范式”,再到数十年前以计算和模拟为主的“计算范式”之后,随着“大数据”时代的到来,人类迎来了科学研究的第四范式,即数据密集型科学发现。
美国政府敏锐地觉察到了“大数据”为科学研究和社会管理带来的一系列变革,积极启动了适应“大数据”的战略规划,以引领全球科学研究和社会管理。美国总统科学技术顾问委员会给总统和国会递交的报告指出:数据正在呈指数级增长,如何收集、管理和分析数据正日渐成为我们网络信息技术研究的重中之重。以机器学习、数据挖掘为基础的高级数据分析技术,将促进从数据到知识的转化、从知识到行动的跨越。该委员会还建议联邦政府的每一个机构和部门,都应制定一个应对“大数据” 的战略。2012年3月,美国奥巴马政府宣布推出“大数据的研究和发展计划”,该计划涉及美国国家科学基金、美国能源部、美国国防部、美国地质调查局等6个联邦政府部门,承诺将投资两亿多美元,大力推动和改善与“大数据”相关的收集、组织和分析工具及技术,以提高从大量的、复杂的数据集合中获取知识和洞见的能力。在这种大背景下,美国地质调查局结合其新十年科学战略计划的研究与策划,出台了本战略计划。


    2. 不断满足社会需求的必然选择 
   本战略的出台是美国地质调查局不断满足经济社会发展要求的必然选择。在130多年的发展历程中,美国地质调查局的研究驱动力一直在“应用”与“研究”之间摇摆。冷战结束后,以科学家自身兴趣为主导的研究之风兴盛,科学家根据自己的个人爱好,凭借自身的技能、专长和设备仪器进行科学研究,被称为兴趣驱动型或学科驱动型科学研究,这固然很重要,但很难与社会实际相结合,满足社会需求。这种情况甚至成为导致1995年美国地调局生存危机的重要原因之一。危机之后,美国地质调查局清醒地认识到其生存和发展取决于适应整个社会需求的能力,必须满足不断变化的国家需求,同广大用户保持更好的联系。于是,美国地质调查局逐步向需求驱动型的科学研究模式转变,提出了“为不断变化世界服务”的建局方针,进一步增强其服务意识。
经过十多年的发展,美国地质调查局服务需求的理念尚未完全得到落实。2009年,现任局长马西娅●麦克纳特女士上任,为进一步落实需求驱动的理念,提出了问题驱动的改革路径,并于2010年重组了美国地质调查局的组织结构和预算结构,将之从与科学学科(地理学、地质学、生物学和水文学)相关的结构,转变成以问题为依据的组织结构。同时进一步明确提出要开展问题驱动型科学研究,这便是当前美国地质调查局进行的战略策划中的指导方针。

   3. 复杂性问题的解决需要综合性交叉性地球科学
     未来面临的许多重大社会经济问题及环境生态问题大都是复杂性问题,需要运用综合研究方法来解决。正如本战略中气候变化的实例所述,和许多现代问题一样,气候变化问题自从有了人类的作用以后,自然因素与人为因素便相互纠缠在一起,其复杂性让人很难从其中抽丝剥茧地把各种因素区分开来。而要成功地解决这些影响着国家发展的问题,只能通过学科的交叉与综合来实现,只有将横跨科学的学科整合起来,产生新的交叉学科知识体系和方法途径,才能解决现代复杂性问题。
正是基于此种认识及时代发展的需求,美国地质调查局在制定核心科学体系科学战略时,高瞻远瞩,提出了大胆而长远的模块式科学框架,以打破传统的学科界限,增进对生态系统的认识和理解,进而解决复杂的社会及环境问题。


    二、核心科学体系科学战略的目标和实质 
   核心科学体系科学战略是美国地质调查局的一项新使命,它源于2007年科学战略《直面明日挑战:美国地质调查局十年科学战略(2007~2017)》中确认的两个交叉的科学方向,即数据集成及其他和新技术的发展。该战略通过将美国地质调查局的核心实力、知识资产和财政经费有机整合起来,在继续夯实美国地质调查局在地质学、地理学和生物学等学科核心实力的基础上,开发新的技术方法,通过学科交叉和综合提升其调查和研究能力。核心科学体系作为美国地质调查局新增的一项重要使命,不同于气候变化和土地利用变化、生态系统、能源和矿产、环境健康、自然灾害和水等其他六个科学战略,它是美国地质调查局全局性的综合科学战略,其长远目标在于实现美国地质调查局全局所有活动间的无缝连接。而其他六项则是产生重要问题的领域,即战略问题;之所以把“核心科学体系”列入使命领域,是因为通过它可以为上述各领域工作提供解决途径。


  2012年,美国地质调查局为适应上述战略部署将预算结构做了相应的调整,新的预算结构即按照上述七大板块安排财政资金。其中,2012年美国地质调查局预算的核心科学体系整合了原有的生物信息管理和传播、国家合作地质填图项目、国家地理空间项目、国家地质和地球物理数据保管等4个项目,2013年又进行了微调,将生物信息管理和传播与国家地质和地球物理数据保管项目的一部分合并为科学集成、分析和研究项目。


   1. 核心科学体系战略的目标和目的
   目标1:为临界带描述、认识及制图提供调查研究
本目标包含了3个目的:一是改进对地质格架的描述和理解,为研究地球的复杂性作用过程提供信息;二是改善陆地表面数据,以更好地表征和认识人为影响与地球表面自然过程之间的关系;三是提高认识生物多样性的自然和社会文化蕴意。
这三个目的从地质学、地理学和生物学三个方面出发,一方面要提高获取基础资料的能力,另一方面要通过获得的基础数据,增强对这三方面学科的认知和理解。其中特别指出要增强两方面的工作,一是通过调查和开发充分的四维地质图之类的产品,提高时间和空间分辨率;二是展示地球的复杂性地质结构是怎样随时间发生变化的。

目标2:通过科学服务扩展美国地质调查局调查成果的应用 
 本目标下设3个目的:一是信息管理和发布现代化;二是研究和开发技术性服务,支持调查工作、数据分析、可视化和信息处理的改进;三是设计和实施稳健配套的专业性服务,帮助模块式科学框架的实施与应用。
本目标体现出美国地质调查局服务优先的原则,能通过信息的发布、技术性服务和专业性服务,使美国地质调查局的研究成果更加容易贴近普通民众,增强其成果的社会经济效益,而这正是国家和社会对美国地质调查局提出的要求。

 目标3:进行科学的分析与合成,提高信息的覆盖面、科学质量、实用性和及时性 
  本目标包含了2个目的:一是加速数据驱动型科学对新型合成产品的应用,确定地球系统的新假说;二是培育针对学科交叉科学的工作氛围模式。


  本目标主要侧重于学科交叉和综合的技术方法,如数据的整合、综合性数据的观测、开发合成产品以及建立学科交叉科学的方法途径等。
综合来看,目标1提出的临界带(Critical Zone)是问题的主要产生或产出位置。因之,要解决这些问题就要调查(研究)临界带,指明了解决问题所要调查的对象。目标2主要说明“核心科学体系”研究不是为研究而研究,是为了服务,满足用户需求。目标3则说明在现代技术条件下解决上述问题的手段。之所以作为目标,是因为采用这种手段的重要性和复杂性,必须作为战略目标予以突破。


  2. 核心科学体系的关键要素
  核心科学体系以临界带为重点研究对象,以传统地质学、地理学和生物学为基础,通过信息学和计算技术的应用实现数据信息的管理和存档,进而实现数据高效便捷的融合合成,促进交叉学科或综合学科的发展,以解决复杂性的科学问题和社会问题(图1)。

 


                                    

                                       图1  核心科学体系的关键要素


  (1)核心科学体系战略的研究对象:临界带
  临界带的概念由来已久,早在2001年美国国家研究委员会(NRC)在其出版的《地球科学基础研究的机遇》(Basic Research Opportunities in Earth Science)一书中就提出了地球科学基础研究的6大方向,其中第一项就是“临界带”的综合研究。在该书中,临界带被定义为地球表层由各组成部分和过程相互作用的一个综合系统。具体而言,临界带是指靠近地球表面的、有渗透性的、介于大气圈和岩石圈之间的地带,垂直方向的范围从树的顶端往下直到地下水深层。临界带过程控制着土壤的发育、水的质量和流动、化学循环,进而影响能源和矿产资源的形成与演化,而这一切对地表生命非常重要。美国国家研究委员会认为临界带研究是21 世纪亟需研究的重点科学领域,通过对地表临界带的研究,将促进一系列社会问题的解决。


  在美国国家科学基金会的支持下,美国已经建立了临界带观测站和临界带探索网络,并在美国特拉华大学成立了临界带研究中心。这些观测站、研究中心的建立,推动了临界带的研究,同时也为核心科学体系相关工作的开展提供了支撑。

本战略中“临界带”的内涵继承了以往关于临界带的认识,认为临界带是维持着地球上生命的各生态系统的无缝集合体。本战略要求持续关注临界带的复杂过程和相互作用,并对相关数据进行收集、管理、集成、分析,以促进对复杂性地球系统的综合性描述和认识,并向美国地质调查局所有研究人员及时提供有用的可靠信息,而这反过来又可以加深对临界带的认识和理解。


  (2)核心科学体系战略的学科基础:地质学、地理学、生物学
  在130多年的发展历程中,美国地调局一直引导着美国乃至全世界的地质学、地理学和水文学的发展。在临界带这一概念广泛应用之前,美国地调局就已经在通过地质图、地理图和水系网描述地球的近地表环境特征,这些图件和其他数据为多尺度的生态系统研究提供信息,成为核心科学体系的基础。随着上个世纪将生物学研究归入美国地调局,建立生物地理学模型和对随时间而变的生物物种分布及栖息地填图,也已加入了临界带数据存储之中。


    核心科学体系的使命正是建立在美国地质调查局在上述地质学、地理学、水文学和生物学长期研究的基础上,研究对象则侧重于与人类生产生活密切相关的临界带。基础性和应用性调查是临界带研究的第一步,也是非常重要的一步,涉及对地球复杂性地质构架的研究,对国家陆地表面作综合性、高分辨率的描述,以及认识和描述生物栖息地和生物多样性的分析方法。


  (3)核心科学体系战略的研究手段:数据密集型的工作方法
地球科学是数据密集型科学,科学数据是美国地质调查局的血液,为美国地质调查局的科学研究提供给养,为美国地质调查局的科学创新提供支撑。美国地质调查局依托地质学、地理学和生物学的调查和研究产生的大量数据,数据密集型的工作方法如何解决复杂的科学问题和社会问题,是未来美国地质调查局着力需要提升的一项核心能力。一般认为,数据密集型工作方法包括以下三个层面:
第一个层面是数据的获取和保存。利用地质学、地理学和生物学的方法,对临界带生态系统进行监测、评价和研究,即通过美国地质调查局近年来实施的国家合作地质填图项目、国家地理空间计划项目等项目来获取数据。这些数据的记录和保存同样至关重要,国家地质地球物理数据保管项目就是为这个目的服务的。




  图2  美国地质调查局科学工作流程示意图


    第二个层面是对数据进行操作的层面,包括数据挖掘和数据分析等内容。图2虚线方框中为美国地质调查局科学数据的生命周期,始于科研项目的设计,然后是数据的获取、处理、分析和存储,最后是数据的发布与共享。在美国地质调查局,数据分析与合成由数据集成组负责,又下设3D/4D建模和可视化工作组、公共科学工作组、数据管理工作组、知识管理工作组和语义网工作组等小组。美国地质调查局的这种工作流程将科学家从常规数据处理的苦差事中解放出来,使他们可以专注于科学发现。这套工作流程承担起日常工作,是以数据为中心的科学研究所必须的,同时,还可将计算资源和数据资源开放给更为广泛的科学家和科研应用开发者。


    第三个层面是知识层面。在上述工作基础上,科学家结合自己对地球系统的已有认识,深化对地球系统的认识和理解。
值得注意的是,科学数据查询、检索、分析和可视化的工具和技术,对科学项目的执行已经变得极其重要,对巨大而又复杂的数据进行上述操作,面临巨大挑战。目前,地球科学的分析和可视化方法已经远远落后于创造数据的能力。而要处理诸如自动数据分析和可视化总结等问题,还需要借助多学科的技能。


    3. 核心科学体系战略的愿景:模块式科学框架
核心科学体系的最终愿景是构建一个能把美国地质调查局的所有使命无缝整合起来,更有效地解决21世纪各种问题的科学框架。这个科学框架是按照生态系统的自然分层,结合当前美国地质调查局内各学科的不同研究对象划分而成,不过这是一个有机的整体,各模块之间存在逻辑关系,可进行融合与叠加。按临界带的概念理解,生态系统是特定地理区内独特的空间特征和时间过程产生的结果,并由这些特征和过程来维持。图3中生态系统被描述为特定模块的组合,既反映出从时间和空间两个分量出发进行的某特定地点的地球科学研究,又能说明特定地点贯穿地质环境到大气圈的整个生态系统的特征和过程。




图3  模块式科学框架


    由各模块组成的模块式科学框架是核心科学体系使命愿景的形象化表达,这个设想的框架可将美国地质调查局的所有科学资产组织到这个有逻辑、可变动和可综合的模块中去,包括各种科学知识、科学产品和研究能力(如协议、 数据集、方案、方法、出版物、项目和科学家),以求能够快速有效地调用各类科学资源,聚焦于国家在其后十年或更长时间内面临的特定复杂性问题。通过该框架可将数据、科学和技术方法及模型,组织到恰当的时间和空间尺度中去,它将有助于把大量信息组织起来驱动科学的合成,最终促进对整个地球系统运转的理解,以促进临界带内的科学认识和决策支持不断增强。

    对美国地调局的科学家而言,模块式科学框架的一个重要作用在于,通过组织在模块式科学框架中的科学资产,将会使他们更容易发现数据和模型,分享和发布成果,发现新的学科交叉联接点和研究机会。图3示出了几个模块合成产品的例子,包括生物的相互作用、地球化学景观、水文学景观、缺断分析(Gap Analysis)和地质图等。


    从美国地质调查局的角度看,模块式科学框架提供了一种手段,用于确定近期的项目放在哪里,未来需要在哪里设定项目,以保持美国地调局的科学工作切合实际。这个框架本质上是跨学科、跨组织和跨国界的。在庞大的致力于这种系统建设的国际科学界内,美国地调局是其中的一个组成部分,这类系统将能把来自世界各地的地球科学数字化知识跨学科地快速整合起来。建成后的模块式科学框架将提供一个集中式的易访问平台,能够共享和提升科学信息。利用这种稳健的模块式科学框架,用6个月就能开发出国家生物量和碳量数据集,而不是6年,只要能够获得新的卫星图像,便可进行自动更新。


    总而言之,模块式科学框架并非一个整体性的软件或数据系统,而是一种力求将整个美国地质调查局乃至全世界的许多不同数据系统联成一体的方法,是将地球科学各分支学科有机结合起来的实现途径,是解决人类目前面临的各种复杂问题的手段,是美国乃至全世界地球科学研究人员共同努力的目标,需要地球科学家和数据学家的努力来不断丰富和不断完善。

   4. 核心科学体系战略的实施指南:概念模型
    地质构造、土地表面和生物地理学等基础科学为模块式科学框架的建立提供建模数据和理论,而信息学则为模块式科学框架的研究与开发提供了技术支撑,这二者是模块式科学框架构建的关键。图4提供了一个概念模型,用作针对模块式科学框架愿景的行动指南。图4顶部的数字地球代表着世界范围的大科学界,美国地质调查局向它贡献数字式知识,并从中获取数据、信息和知识资源。数字地球与模块式科学框架交叉契合,从框架中汲取数字式知识,为框架提供新的认识和研究产品。


    在模块式科学框架的概念模型中(图4),箭头代表着技术性服务和专业性服务,这样的服务可以使研究过程同模块式科学框架进行有效、及时和稳健的互动。模块式科学框架为研究过程提供专业性服务,而研究过程则为模块式科学框架提供技术性服务。


    针对模块式科学框架的概念模型示出了几个步骤,在这里,从数据和信息管理到框架功能(数据挖掘、数据发布和归档、科学工作流程直到最终发布),几步研究过程是交叉的。每个步骤既要求简便易行(可通过核心科学体系使命提供),也要求直接投入(来自美国地调局的所有使命、项目、科学中心和科学家个人)。图4表明,在美国地质调查局的科学项目执行期内,实施的所有步骤都应当受到严格的检验,看它们怎样才能既对模块式科学框架的数据和信息做贡献,又能从这些数据和信息中受益。


                                                           图4  概念模型


    模块式科学框架下的研究过程始于复杂性科学问题的提出或决策者在管理方面的新要求,这就要求科学家针对上述问题探索综合性的新方法。进而在模块式科学框架中进行数据挖掘工作,用以针对问题进行数据的组配和新数据集的构建,再而进行数据管理、综合和合成、科学分析与发现,以及科学出版等工作。如果上述流程化工作探索出了固定的研究方法,则将科学工作流、数据和知识等固化到模块式科学框架中,从而进一步完善模块式科学框架。


    三、启  示


    1. 加强临界带综合研究,为基于生态系统的管理提供技术支撑
临界带是人类与生态系统相互作用,且常与其功能发生冲突的区域,它涉及与人类活动关系密切的地质构造、国土空间和自然生态系统等三个层次内容,这三个层次的内容是相互联系、不可分割的有机整体,共同构成了临界带生态系统。


    随着人类文明的不断发展进步,经济社会发展与自身生存环境恶化的矛盾日益突出。地球科学的研究对象正是与人类生存密切相关的临界带,其社会经济效益越来越受到公众的广泛关注。这种形势给当前的地质工作带来了新的机遇,也带来了新的挑战。一方面,地球科学研究应当从地表及地下地质格架的研究,扩展到与人类生产生活紧密联系的整个生态系统的研究上,从单一的地质学研究扩展到地质、国土、自然生态环境的综合研究上。另一方面,地球科学研究应当以解决实际问题为出发点,更多的关注与我们的生产生活密切相关的综合学科领域。这样才能使地质工作更加紧密地结合经济社会发展需要,更加主动地服务于经济社会发展。


    2. 加强地质调查数据获取能力,提升知识服务水平
    美国地质调查局以1万人左右的队伍,11亿美元左右的年度经费,完成了让社会公众满意的地质调查产品,很大程度上是由于其先进的数据获取能力和以计算机模拟技术为支撑的表达能力。我国地质工作程度相对较低,国民经济的发展对地质工作的要求日益提高,而受上世纪地质工作萧条的影响,国家地质工作队伍能力却有所减弱,不能满足社会经济发展对地质工作需求。这对矛盾要求我们一方面要加强自动监测平台建设,整合或加强系统内外已有监测平台(数据)的共享或共建,构建多层面的对地观测平台。在地表层面上,利用传感器获取实时监测数据,如地表移动、水体质量等。在太空层面上,利用卫星获取遥感影像等信息。通过加强数据的获取能力,进而可大幅提升地质调查能力,将已有的数据监测平台整合起来,形成一个统一的地质调查数据监测系统。另一方面还需加强对地质作用过程及地表演化过程的计算机模拟,通过可视化技术等表达出来,进一步提升对自然及地质作用的理解,为管理者和大众提供简单实用的工具,使其更好的理解和接受地质知识,实现知识服务。


    3. 加强地质数据的共享与交换,促进科学研究与发现
地球科学正朝着计算化和数据化的方向发展,美国地质调查局的核心科学体系不仅包含传统的地质学、地理学和生物学等学科,同时也包括了计算机科学、信息科学等新兴学科。美国地质调查局一方面强调要提升采集管理数据和信息能力,以及实物地球科学样品长期存取能力;另一方面,还要强调完善其数据和信息处理的能力。


    我国地质工作在进行了半个多世纪的发展,积累了大量的实测数据和实物资料,存储保管机制基本形成,但缺乏共享与交换机制。随着地球科学日益向数据密集型科学转型,数据不再仅仅是科学研究的结果,而是变成科学研究的基础及重要工作。我们亟须建立地质数据的共享与交换机制,实现分布式地质数据的一站式访问平台。这样做的最终目的是帮助研究人员更好的开展科研项目,帮助决策者和社会公众做出有充分信息依据的决定。