数据之中挖宝藏
——非结构化、碎片化地质大数据挖掘技术论证与现场观摩会侧记
来源:中国国土资源报
作者: 于德福
发布时间:2016-01-06
地质调查人员在出野外时,能否随时查阅调查点的资料?2015年12月15日~17日,在乌鲁木齐市,与国际互联网大会同期举行的非结构化、碎片化地质大数据挖掘技术论证与现场观摩会上,与会专家和代表们看到了希望的曙光——这一老地质工作者的夙愿,终于有望实现了。
让地质数据用起来
新中国成立以来,我国形成了大量的成果地质资料。但受地质工作成果存储格式限制,特别是地质报告等碎片化、非结构的地质数据所占比例较大,导致成果地质资料无论是地质调查自身应用还是对社会服务,都存在数据服务能力有限、利用率不高和不普及等突出问题。
从对自身服务看,地质调查分野外调查和室内研究两大环节。其中,野外调查是室内研究的基础,采集的岩石、地层、构造、矿产、水文、地貌等信息越丰富,室内研究的成果才会越深入。但地质人员一旦进入到野外开展调查,就进入到无师可求的境地,信息判定是否准确、信息采集是否全面无遗漏等,完全由同组两个人的知识积累、实践经验等决定,以前工作形成的资料无法全部带出来指导调查工作。因此,我国的地质调查分组一般采取一老一新的“标准配置”。
从社会服务看,地质调查成果数字化程度虽然每年都在提高,但仍有大量地质资料未实现数字化。即使是已经数字化了的成果,专业人员也难以用常规办法将自己所需的资料全部检索出来,普通借阅者更会有无所适从的感觉。
对于碎片化、非结构的地质数据服务能力问题,中国地质调查局发展研究中心地质调查智能空间平台研发团队负责人李超岭在会上从技术的角度进行了说明:在数字化的地质成果中,非结构化、多样化、碎片化的地质调查数据,占具有结构化数据特点的比例高达85%以上。但这些由Word、PDF、Excel、PPT图形、图片、视频等非结构化多样性数据文件组成的报告,往往是地质成果的精华所在,其潜在价值也是其他数据无法比拟的。因此,如何让这部分数据在地质调查和社会服务中发挥作用,就成为地质信息工作者的一大任务。
正是基于这样的考虑,自被称为大数据元年的2013年开始,李超岭团队就开展了大数据技术在地质行业的应用研究,目标一是要通过技术手段实现非结构化数据的深度挖掘和知识发现,二是要利用现代网络技术实现成果地质资料对野外调查的知识支撑。
初步形成智能服务框架
为了实现这两大目标,李超岭团队开发了非结构化、碎片化地质大数据挖掘技术,以及地质调查物理空间和信息空间智能叠加两大核心技术,初步搭建起地质调查智能感知服务整体架构。
李超岭说,非结构化、碎片化地质大数据挖掘技术由多样化碎片化复杂地质调查非结构化数据的存储模型、存储模型扩展、发现与挖掘模式、组织与分析方法流程、结点部署模型等关键技术组成;地质调查物理空间和信息空间智能叠加技术,则以地质调查智能空间平台为基础,通过空、天、地一体化通信网络建立起室内、野外联系,从而智能感知野外调查者的坐标位置、地理位置和地质位置。
会上,团队技术人员进行了实际演示。人们随机给出3个关键词,地质调查智能空间平台瞬间从1万多档地质资料成果中挖掘出数千条相关的关联内容知识片段;随便给出一个地理坐标,就能从位置坐标转换成地理位置和地质位置信息,从而构成野外现场的逻辑“传感器”数据,通过数据挖掘清楚看到该坐标及相邻地区的地质工作成果资料目录、数据挖掘后形成的知识片段等。需要注意的是,演示利用的仅为新疆地质资料馆中数字化的资料,如果以中国地质调查局25个网格节点中的地质资料为对象,形成的关联知识内容将会更完整。
据团队技术人员介绍,为了验证该平台对野外地质工作的支持性,今年8月,他们以中国地质调查局成都地质调查中心西藏阿木雄地区地质矿产综合调查(1∶5万)工作区为实验地,在海拔高度5700米的现场,调查人员通过IP卫星、北斗系统和天通一号组建的通信系统,在手机上瞬间获得了该调查点的定点描述、15个地名和3个地质实体,以及与调查点相关的9部地质报告、159个知识片段。经野外调查人员确认,手机上收到的内容与调查点形成高度关联。
看完演示后,代表们说:“这相当于为我们配了一个随身携带的地质资料馆呀!”
“要是早有这一平台,贵州省毕节政府提出的玄武岩哪些适合工业用、哪些只能用来铺路的问题,我们就可以当场答复了。”中国地质调查局成都地调中心研究员张建龙说。
前后台均需继续努力
虽说这一框架仅初具雏形,但已显示出其在地质数据挖掘知识的非凡能力。参加会议的专家和代表们认为,要想使这一技术真正在实际工作发挥作用,还需要技术团队、相关部门的共同努力。
从技术团队看,首先要增加地质领域本体知识库的完整性,通过网络资源和用户引导学习的过程,逐渐形成完整的地质知识库,为深度地质数据挖掘奠定基础。在此基础上,在文档的聚类上多下功夫,确立的分类原则应进一步细化,以增强知识发现的关联度;要研究拓扑关系的挖掘办法、增加对空间数据的挖掘;针对多媒体文档多的特点,在多媒体数据挖掘上下功夫,要深入研究二维与三维的关系,通过技术手段将大量二维数据转换成三维数据;要在基本框架完成后大力推进节点建设,增加数据源的数量。特别是要及时开展相关标准、规范建设,通过完善标准和规范,在不断提升平台能力的同时,吸引业内技术人员开展相关研究。
从外部环境看,要充分使这一平台发挥作用,还需要相关部门积极支持。一是地质资料管理机构要加大地质数据由“死”到“活”的进程,即把不具备数据挖掘能力的非结构化数据转化为“活”的数据。目前,虽然我国地质资料馆保存的成果地质资料大部分进行了数字化,但大部分仍是以“扫描”形式形成的非结构化数据,在本次试点的数据中就有约60%属于该类型的数据,这些数据的服务能力非常有限。二是要加快地质资料的脱密工作。大数据必须有大的数据源,数据源的数据量越大,智能挖掘形成的知识发现就会越多、越全面。但受保密政策限制,我国成果地质资料中还有大量数据无法纳入到数据挖掘的数据源中,制约了这一平台功能的发挥。