数据毕业论文提纲范文 与世界主要政府开放数据元数据方案比较和类研究生毕业论文范文

本论文为您写数据毕业论文范文和职称论文提供相关论文参考文献,可免费下载。

世界主要政府开放数据元数据方案比较和

1 引言

自2009年开始,全球兴起了一场“开放政府数据”(Open Government Data, OGD)运动[1-2].截至到2016年7月,“开放政府合作组织”(Open Government Partnership,OGP)的成员国已从2011年成立之初的8个发展到70个.根据世界银行的统计,目前已有超过250个各级政府实施了“开放数据行动计划”(Open Data Initiative)[3].

与此同时,开放政府数据成为图书情报、信息管理和电子政务等领域的研究热点[4-5].英国学者Tim Dies总结了“开放数据行动计划”的十个障碍[6]:(1)领导和官员的支持;(2)开放数据集;(3)开放数据许可;(4)数据标准;(5)数据门户;(6)第三方的数据应用;(7)推广与普及(公众参与);(8)能力建设;(9)反馈机制;(10)政策和立法.其中(2)(4)(5)(6)(7)(8)六个障碍都涉及到元数据,包括数据集的元数据描述、元数据标准、数据门户的元数据管理、基于元数据的数据查找和发布者提供高质量元数据的能力等.2014年,G8的《开放数据宪章》发起了“元数据映射”共同行动[7];欧盟的“开放数据战略”研究政府元数据的“语义互操作性”问题(ISA中的SEMIC.EU项目)[8].随着开放数据的逐步深入,元数据从提高开放数据集的可发现性[9]到帮助用户理解、选择数据集[10],正在向规范化、标准化和机器可读的方向发展.

在学术研究和政府实践上,我国也已开始加快了追赶全球开放数据浪潮的脚步[11].如郑磊等[12]构建的“中国政府开放数据整体评估框架”中,元数据是13个评估维度之一;钱晓红[13]、周志峰[14]等均认为元数据的建设和管理是“开放数据平台”和“数据目录门户”的核心功能.从2012年开始,北京、上海、浙江和重庆等地方政府相继推出了十余个开放数据的门户网站.虽然这些网站都能提供基本的元数据信息[15],但元数据对数据集的描述尚不全面、规范程度也不高,难以支撑大范围的数据目录互操作和用户的查找需求,这将影响到数据开放的效果[9].为此,本文通过比较国际上主要的政府开放数据元数据方案,概述与分析了我国地方政府开放数据元数据方案的不足,以期为我国政府开放数据的元数据体系建设提供一定的理论借鉴和参考.

2 W3C的开放数据元数据标准规范

由蒂姆·伯纳斯-李领导的W3C是政府数据开放运动的积极推动者[16].2014年1月16日,W3C政府关联数据工作组(Government Linked Data Working Group)发布了由爱尔兰国立大学DERI(Digital Enterprise Research Institute)起草、W3C电子政务兴趣小组(eGovernment Interest Group)修改的政府开放数据元数据的正式推荐标准——DCAT(Data Catalog Vocabulary)[17].据统计,DCAT及其应用纲要(Application Profile)已被欧盟、美国、英国、西班牙、爱尔兰和意大利等政府机构、服务全球的数据目录DataHub(datahub.io)和开放数据平台DKAN等广泛采用[18].

DCAT主要支持数据目录之间的互操作性(interoperability),因此采取了本体的表述方式[19-20].DCAT本体(也称“词汇表”)的命名空间是http://www.w3.org/ns/dcat#(前缀是dcat),共定义了7个类和17个属性,并复用了都柏林核心元数据(Dublin Core)、FOAF本体和SKOS本体的相关词汇.

2.1

描述对象

DCAT元数据的描述对象主要是“数据目录”、“数据集”和“数据资源”(见图1),其分别对应图中的类dcat:Catalog、dcat:Dataset和dcat:Distribution.dcat:Catalog类的实例是开放数据目录的门户网站,如美国的catalog.data.gov、英国的data.gov.uk、北京的bjdata.gov.cn及datahub.io等.截至2016年7月,DataPortals.org收集的数据目录门户网站已达519个.

一个数据目录网站通常含有大量的“数据集”——数据目录管理的基本单元,由一个机构或部门发布和维护的数据的集合.2013年全球43个国家以24种语言开放了1028054个数据集[7],这一数字还在快速增长.因此,“数据集”是元数据描述的核心对象,以帮助用户发现、理解和选择适当的数据.一个数据集包含一个或多个“数据资源”——能被下载的数据文件、访问数据的端点(endpoint)或RSS源(feed)等.显然,用户增值应用的对象是“数据资源”.

2.2

元数据元素

在三个主要描述对象中DCAT推荐的元数据见表1,带下划线的是被美国政府采用的,dcat:Catalog类有13个属性,包括DCAT本体定义的3个新属性;dcat:Dataset类有15个属性,有5个新属性;dcat:Distribution类有11个属性,有4个新属性,其中括号内的是来自都柏林核心元数据或FOAF的父属性(见表2).

3 美国的元数据方案

美国是开放政府数据的发起者和领跑者.从2009年5月21日发布了全球第一个国家数据门户Data.Gov以来,到2016年7月各级政府(州、县和市)的开放数据门户网站已有88个[22].Data.Gov上的数据集从几百个发展到超过18万个,涵盖农业、教育、能源、气候、财政、健康、公共安全、科学研究等14个主题群.2016年4月21日,由互联网之父蒂姆·伯纳斯·李(Tim Berners-Lee)创办的万维网基金会(World Wide Web Foundation)公布了其第三份“开放数据晴雨表”(Open Data Barometer)全球报告. 报告显示:在纳入评价的92个国家和地区中,英国的政府开放数据水平综合得分居首,美国、法国、加拿大,丹麦紧随其后[21].

在元数据建设方面,美国也走在了前列.由白宫领导的“开放数据项目”(Project Open Data)于2013年9月20发布“元数据方案”1.0版[23]后,2014年11月6日发布了最新的1.1版(Project Open Data Metadata Schema V1.1,POD V1.1)[24],并于2015年2月1日前完成了从V1.0到V1.1的转换.目前,Data.Gov上的数据集不仅来自联邦政府机构,也聚集了诸多地方政府数据门户的数据集,这得益于各级政府广泛使用了POD V1.1.

归纳起来,美国在开放数据元数据的建设上呈现如下特点:

(1)政策保障.2013年5月,美国白宫行政管理和预算办公室(OMB)发表的备忘录《开放数据政策:将信息作为资产管理》是美国政府数据资产管理的纲领性文件[25-26].备忘录明确指出[27]:元数据是美国联邦政府开放数据政策的一部分,“元数据方案”广泛适用于政府和地方政府及非政府组织.

(2)标准化和规范化.基于DCAT建立1.0和1.1版的“通用核心元数据”(common core metadata)[2,23],并映射到元数据标准DCAT、Schema.org、CKAN元数据、ISO 19115和 CSDGM[28].方案采用JSON-LD定义元数据模式及机器可读(machine readable)的标准化元数据记录格式,如Data.gov提供了RDF和JSON两种格式的元数据.方案明确规定各元素的取值类型,如将String 类型细化为IRI、URL和IANA Media Type等,而与时间有关的元素(如issued、modified和temporal等)的取值类型是ISO 8601 Date(www.iso.org/iso/home/standards/iso8601.htm).

得益于这一系列的标准化和规范化方案要求,故在“数据创新中心”(Center for Data Innovation)2015年对G8各国的开放数据情况评估中,美国元数据标准化的得分是满分(10分)[29].

(3)本土化.美国结合政府信息化的发展情况,引进和构建了具有本土特点的元数据,以实现对数据集等对象的全面描述.主要体现在:①引进只适用于美国联邦政府的元数据元素:bureauCode、programCode、dataQuality、primaryITInvestmentUII和systemOfRecords;②支持数据标准的元素conformsTo,支持数据字典或数据模式的元素describedBy;③将元素分为三类:必需的(Required)、一定条件下必需的(Required-if )和扩展的(Expanded).

3.1

数据目录的元数据

PODV1.1对数据目录设有6个元素:@context、@id、@type、conformsTo、describedBy和dct:dataset(dcat:dataset)(见表3).其中,前三个元素取自JSON-LD规范定义的关键字[30],接下来的两个是美国独有的,最后一个来自DCAT.

3.2

数据集的元数据

描述数据集的元素有29个,其中17个来自DCAT(表1带下划线的元素),1个(dct:references)来自都柏林核心元数据,11个是自定义元素(见表4).

3.3

数据资源的元数据

描述数据资源的元素有10个:@type、conformsTo、describedBy、describedByType、dct:title、dct:description、dct:format、dcat:downloadURL、dcat:accessURL和dcat:mediaType.除了复用DCAT的6个元素,有4个是自定义的元素(见表5).

4 欧盟的元数据方案

开放数据是欧盟大数据战略的主要内容之一[31].2011年12月,欧盟明确提出开放数据战略——《开放数据——创新、增长和透明治理的引擎》,以为实现欧盟2020目标提供新的路径与动力.2016年,在欧盟28国和EFTA 4个国家(冰岛、列支敦士登、挪威和瑞士)开放数据的直接市场规模将为553亿欧元,2020年将增长36.9%达到757亿欧元,2016-2020五年间累积的直接市场规模为3250亿欧元[32].

2014年12月,欧盟在连接欧洲设施(CEF)框架下,启动了“欧盟数据门户项目” (European Data Portal Project).项目建设的欧盟28国统一的数据目录门户(www.europeandataportal.eu)已收集了来自70个数据目录的58万多个数据集.而做到这一点,依赖的是欧盟的开放数据元数据方案“欧盟数据门户的DCAT应用纲要”(DCAT Application Profile for data portals in Europe,DCAT-AP).

4.1

欧盟的DCAT-AP

欧盟项目“公共部门互操作性方案”(ISA)的行动计划“提高欧盟电子政务系统的语义互操作性”于2013年9月2日发布DCAT-AP 1.01版,到2015年ISA2项目已将其修订为V1.1版[33].在W3C DCAT的基础上,欧盟DCAT-AP将类和属性分成强制的(Mandatory)、推荐的(Recommended)和可选的(Optional )三组.其中22个类中,dcat:Catalog 、dcat:Dataset、skos:ConceptScheme、skos:Concept、foaf:Agent等7个类是强制类,dcat:Distribution为推荐类(dcat:Catalog 、dcat:Dataset和dcat:Distribution的部分属性见表6),dct:Location、dct:Standard和v:VCard等14个类是可选的.对于强制类和属性,发布者必须提供相应的描述信息.

为了解决分布式数据目录的互操作和跨语言问题,欧盟DCAT-AP引进了受控词汇表来规范元数据记录的取值部分属性和取值的受控词汇表(见表7).

作为标准规范,DCAT-AP已被欧盟各成员国通过,欧盟和14个国家(奥地利、法国、德国、希腊、爱尔兰、意大利、荷兰、挪威、罗马尼亚、斯洛伐克、斯洛文尼亚、瑞典、西班牙、英国)的开放数据门户网站已经采用DCAT-AP[34].

4.2

爱尔兰的元数据方案

爱尔兰于2014年建立了国家数据门户(data.gov.ie),其“成熟度”(Maturity)在欧盟处于中上水平[32].爱尔兰公共支出和改革部成立专门的工作组PBWG(Public Bodies Working Group)于2015年6月发布“开放数据技术框架”(Open Data Technical Framework),包括五部分:开放数据许可、数据格式、元数据方案、数据标准和标识符[35].爱尔兰的元数据方案在欧盟DCAT-AP的基础上,增加了描述地理数据集的元数据(见表8).

5 我国地方政府的元数据方案

不同于美国、英国、欧盟等从国家(或政府)层面到地方政府的发展路径,我国的开放政府数据主要发端于地方政府.从2012年开始,在大数据战略和智慧城市建设中一些地方政府率先推出了开放数据门户网站[12](网址参见参考文献[7]和[12]).

5.1

元数据方案

本研究在调查和分析各数据目录实际使用的元数据基础上,以北京、上海和浙江为代表,归纳出主要的

元数据元素,并建立了各元素到DCAT的映射(见表9).

5.2

不足之处

虽然我国这些地方政府开放数据的元数据能满足现阶段开放数据的基本需求,但仍有不足,如:

(1)元数据规范程度低.2013年11月,上海市质量技术监督局发布上海市地方标准《政务信息资源共享与交换实施规范第1部分:目录元数据》,用以规范政府部门数据资源开放清单的编制.但其他地方政府还没有公布专门的开放数据元数据方案,也没有声明采用已有的元数据标准或规范(如《政务信息资源目录体系第3部分:核心元数据》(GB/T 21063.3-2007)),这一直接后果是元数据规范程度低.如,北京市政务数据资源网(bjdata.gov.cn)上的“资源更新周期”取值有“一年”的、也有“每年”的,而“在线资源链接地址”的取值都是“WWW.BJDATA.GOV.CN”,造成用户不能从元数据直接找到数据资源,也就失去了元数据的价值.

(2)对开放数据集的描述不全面.总结各网站普遍缺失的最基本和重要的元数据(见表10),可以发现“开放许可”、“修改日期”和“标识符”在开放数据晴雨表ODB的评价指标中分别占15、10和5分的权重[7],是影响开放数据质量的核心元数据.中国在ODB 2015的综合得分是21.16,在92个国家的排名是55,由此地方政府调查反映出来的元数据不完整则是分数不高的重要因素之一.

(3)不支持分布式数据目录的互操作.调查发现我国地方政府开放数据没有描述数据目录的元数据;各网站普遍没有采用机器可读的元数据格式;网站间的元数据差异较大,表现为元素的个数、名称与格式上的不一致.因此,数据目录间的互操作水平低,难以实现聚合多个数据门户到统一入口和应用程序跨多个数据目录读取数据集的元数据.

6 对我国元数据建设的启示

2015年9月5日,国务院印发了《促进大数据发展行动纲要》,明确在2018年底前要建成国家政府数据统一开放平台[36-37].2014 年12月2日,全国信标委成立大数据标准工作组,启动了大数据领域(含开放数据)标准的研制工作[38].开放政府数据元数据的建设已日益紧迫,结合我国的本土情况,可多方面借鉴国外的先进经验.

6.1

政策支持和法律、法规保障

在开放数据行动计划中,各国都出台了一批新的政策、法律和法规[6,11,25,39],明确了元数据的重要性.除了上面介绍的美国和欧盟,英国的开放数据原则第十四条规定:“公共机构应该发布数据集的相关元数据”.正是政策的支持和法律、法规的保障,促进了实践中元数据的标准化和规范化.

我国还没有国家层面专门的政府数据开放法规,政府信息版权法规政策体系中也没有“开放许可”的内容[39].研究表明,开放许可相关法规的缺失是实践中普遍没有“开放许可”这一核心元数据项的主要原因[12].

6.2

构建完整的元数据标准体系

开放政府数据将重塑政府信息管理体系[40],包括元数据标准体系.爱尔兰“开放数据技术框架”的五部分是一个有机的整体,是一个广义的“元数据标准体系”的雏形.其中的开放数据许可、数据格式、数据标准和标识符不仅适用于开放的原始数据,也适用于元数据.

在遵循标准化和本土化的原则下,我国应构建完整的元数据标准体系进而实现:(1)既支持各层次的开放政府数据,也支持非政府机构的开放数据;(2)将“数据目录”作为重要的描述对象,支持目录间的互操作;(3)既有核心的通用元数据,也有专门领域(如地理数据集等)的元数据标准;(4)技术上保障元数据的开放共享性,如机器可读的数据格式标准和模式定义标准等;(5)规范元数据取值的分类体系(如主题词表)、编码体系(如受控词表)和数据字典等.

6.3

重视元数据的语义化

Web是开放数据的第一渠道,正在向语义Web和数据Web(即关联数据)的方向发展,显著特征是出现了大量的本体/词汇表和关联开放数据集.为实现开放数据目录的语义互操作,W3C、美国和欧盟等均采用了语义Web和本体技术.

实现元数据语义化的途径主要有:(1)开发核心词汇表(如DC、FOAF等),它们是设计元数据方案的基础;(2)通过本体建立元数据的概念模型;(3)利用RDF/XML、JSON-LD等编码元数据;(4)通过SKOS等本体形式化表示受控词表;(5)复用和扩展已有本体和元数据,构建应用纲要.

7 结语

开放数据是政府信息公开在大数据时代的发展和深化,元数据对于用户查找和选择适当的数据集和聚合数据目录具有重要意义,而我国政府开放数据的元数据建设尚处于起步阶段.

本文介绍了国际上主流的元数据方案:W3C DCAT、美国的POD v1.1和欧盟的DCAT-AP,总结了美国和爱尔兰在元数据建设上的本土化等特点.进而对照国际上最佳实践的发展趋势,指出我国的元数据建设应在政策支持及法律保障、体系完整和语义化方面加强工作,以克服当前在规范化、标准化和互操作上的不足.

本研究进一步的工作是在政务信息资源元数据和DCAT的基础上构建开放数据的元数据方案和规范、研究元数据的质量测度和评价方法等.

数据论文范文结:

大学硕士与本科数据毕业论文开题报告范文和相关优秀学术职称论文参考文献资料下载,关于免费教你怎么写数据方面论文范文。

1、关于大数据的论文

2、毕业论文数据怎么找

3、大数据杂志

4、论文数据

5、有关大数据的论文

6、数据挖掘论文