提问 发文

清华研究 | 谷歌公共数据浏览器:数据的可视化实现与应用(上)

微微菌

| 2023-04-11 11:50 539 0 0


谷歌公共数据浏览器(全称Google Public Data Explorer,GPDE),是谷歌公司于2010年推出的一款功能强大的新型数据可视化工具,它收集了包括来自世界银行、欧盟统计局、美国劳工统计局和美国人口普查局等众多数据提供方所提供的数据。凭此工具,人们可以通过非常直观的图表阅读的方式来浏览各种公共统计数据,甚至于转化为动态的形式。人们还可以根据其喜好随意浏览所需要查看的统计数据的不同类别、国家、地区,或依照历史时间进行对比,了解某数据的历史变化趋势等。GPDE可以实现公共数据的可视化处理,方便了用户对数据的查阅,还将有利于公共管理、教育教学、地理统计等多项领域。


本文将针对GPDE的各项功能与应用展开论述,介绍GDPE的基本发展历史、基础功能,以及其有关地理统计、人口普查等多方面的应用。


1谷歌公共数据浏览器的简介


Google Public Data Explorer提供来自世界银行、经合组织、欧盟统计局和丹佛大学等一系列国际组织和学术机构的公共数据和预测,并将这些数据和预测以折线图、条形图、横截面图或地图的形式展示出来。1该产品于2010年3月8日作为Google实验室的实验性可视化工具推出。2011年,为了实现任何人都能够在谷歌公共数据浏览器中上传、共享和可视化数据集,Google公司创建了一种新的数据格式,即数据集发布语言(DSPL)。用户依循此语言格式在浏览器上导入数据后,即可以将数据集可视化、嵌入到外部网站中,并以谷歌文档的形式与其他用户共享。2


应当指明,公共数据浏览器本身并不是一个搜索引擎,它是一个为第三方数据集生成图形和实现其他可视化目的的应用程序。它使用x轴/ y轴模板,并允许用户为每个轴选择不同的数据元素,从而提供一系列显示选项。例如,人口数据可以在一个轴上按数字大小绘制,在另一个轴上绘制日期,以显示人口随时间的变化。


尽管公共数据浏览器是一个独立的应用程序,但截至目前为止,该程序已经加载了几十个数据集,这使得它可以作为一种用于统计参考的庞大数据库。用户除了可以自行上传数据并绘制数据可视化图表以外,还可以选择这些数据集,在公共数据浏览器中进行的最常见的数据搜索应用,它们将从“世界发展指标(WDI)”、“人类发展指标(HDI)”、“全球竞争力报告”和美国人口普查局等关键来源中,提供大量有用的有关国际人口统计、工业、商业和技术等领域的数据。


相较其他工具,GPDE提供了一个公共界面的优势,该界面具有很多的功能显示选项,可以涵盖许多庞大而有用的数据集合进行工作。在许多情况下,GPDE提供的显示和分析功能比数据集的主站点的显示和分析功能更简单、更优越。而且相较于数据集主站点,GPDE可以按照数据集或按单个指标的方式进行搜索,提高了搜索的准确性。


不过,GPDE所采用的数据样本虽然具有很高的价值,但该数据集可能十分庞大且冗杂。其次,它可能包括来自某一数据站点(例如美国人口普查局、世界发展指标)的关键数据,但并不是所有的人口普查数据和全球所有的经济数据都背囊括其中。因此用户在使用该工具时,应当时刻关注其局限性。


2数据集发布语言


我们知道,谷歌开放的公共数据浏览器可以供任何人上传、共享和可视化数据集。而保障这一功能、由Google全新创造出的新的数据格式,称为数据集发布语言(Dataset Publishing Language,DSPL)。在浏览器中,用户如要上传数据,则可单击“Public Data Explorer”左侧的“My Datasets”链接,在导入数据后,便可以将数据集可视化到外部网站,或以谷歌文档等方式与其他人共享。本节将简单介绍有关数据集发布语言的内容以及相关技术问题。


1. DSPL的基本内容


DSPL是数据集发布语言的缩写。它的功能则是DSPL中描述的数据集可以导入谷歌公共数据资源管理器,该工具可以实现对数据进行丰富的可视化探索。


DSPL数据集的输出文件是一个zip文件,其中包含数据(CSV文件)和元数据(XML文件)。CSV文件是包含数据集数据的简单表格;XML文件描述数据集的元数据,包括信息元数据(如度量的描述)以及结构元数据(如表之间的引用)。元数据文件的存在允许了非专业用户对大量数据的探索和可视化工作。一个完整的数据集应当包含以下五个部分:一般信息(General information)、概念(Concepts)、切片(Slices)、表(Tables)和主题(Topics)。


其中,一般信息是指关于数据集的基础、概括性信息;概念是指数据集中有关某些事物的定义,如国家、性别、职业、失业率等等;切片指不同概念之间组合而形成的数据;表格是概念和切片的数据,概念表保存枚举数据,切片表保存统计数据;主题是通过标记将数据集的概念组织成有意义的层次结构。


对于这些较为抽象的概念,我们可以举例进行说明。例如我们考虑某数据集,统计时间序列以人口数和失业人数为内容,由国家、各州和性别等等不同的组合进行汇总。此数据集中,定义了概念如:国家、性别、人口、各州、失业率、年份等。


概念可能存在分类的情况,例如在美国,各州的可能值如加利福尼亚、亚利桑那州等,他们可以组成一个列表,这属于概念表。切片则定义了数据集中有统计数据概念的每个组合,它包括维度和度量,例如在下图中,维度是蓝色的,度量是橙色的。仍以人口为例,切片gender_country_slice包含度量(人口)和维度(国家、年份、性别)的数据,另一个切片country_slice,则给出各国每年的人口总数。

 

图片

图1 人口及失业人口数据集示例3


在数据集中使用的 DSPL 的最后一个特性是主题。主题用于对概念进行分层分类,并帮助用户导航到用户数据的应用程序。创建了数据集之后,下一步是压缩它并将zip文件上传到谷歌公共数据浏览器工具,实现数据的可视化。


2. SDMX转换器


SDMX 转换器可以在不同格式之间转换统计数据集。它的目的是在不同格式之间转换文件,是对SDMX-RI 的补充,后者可以直接从数据库生成SDMX-ML数据。它作为一个开源应用程序,能够将DSPL(Google的数据集发布语言)消息转换为SDMX-ML,反之亦然。这种格式的数据集可以由Google处理并在Google Public Data Explorer 中实现可视化。

 

图片

图2 SDMX转换器的多种形式使用4


3欧盟统计局与谷歌公共数据浏览器的合作


1. 欧盟统计局简介


欧洲联盟统计局(the Statistical Office of the European Union, EUROSTAT)编制的统计数据大部分由成员国收集,它提供欧洲一级的统计数据,使各国和各区域能够进行比较,并通过出版物和联机数据库以综合格式免费传播这些数据,从而增加价值。自2004年以来,免费获取和重用数据是欧盟统计局传播政策的基石。通过促进尽可能广泛地使用欧盟统计局的数据,它有助于确立欧洲官方统计数据作为关于欧洲社会和经济的首选数据来源,并使欧洲公民和企业能够利用他们提供和付费购买的数据。


作为一个普遍的原则,欧盟统计局的统计数据可以从“欧盟统计局网站”(Eurostat website)上下载,它们可以用于包括商业在内的任何目的,只要数据的来源源于欧盟统计局。运营方对数据不收取任何费用,而重新利用数据的机构也不需要签署任何许可协议。通过该网站,欧盟统计局可以使用欧盟统计局开发的可视化工具查看和提取数据,利用数据资源管理器专注于以用户可定制的方式显示数据,甚至于采用表格、图表和地图等工具提供额外的图表和地图功能。


此外,用户也可以使用批量下载功能以多种格式下载完整的原始数据文件。对于经常下载大块数据并将其存储在自己的数据库中或希望使用所选工具重用数据的用户来说,这是获取数据的首选方法。自由获取数据和对数据再利用缺乏限制两大特点的结合意味着欧盟统计局已经符合开放数据运动的原则,并与欧盟委员会开放欧盟公共部门信息(PSI)访问的倡议相一致。 这自然引起了谷歌公共数据运营者的兴趣。


2. EUROSTAT与GPDE的合作


欧盟统计局与谷歌的合作始于2009年。谷歌认为欧盟统计局是一个主要的参考数据源,非常希望欧共体统计局能够为其免费提供大量可以下载的数据。为了强调这一点,谷歌在2009年9月于华盛顿举行的谷歌峰会2.0上明确提到了欧盟统计局。


谷歌对于公共数据浏览器的设想早而有之,在2008年收购Gapminder的Trendalyzer后,谷歌开始致力于创建一个新的服务,使大量数据即时可用,用于直观、可视化的探索。为此,谷歌首先从接收美国数据开始。例如,在“google.com”浏览器中中输入“失业率”或“人口”的关键词,并附带美国的一个州进行搜索,将会按以下方式看到对于美国某一州“失业率/人口”的最新估计:


图片

图3 谷歌关于“unemployment rate Arkansas”搜索结果5


如图3所示,一旦用户单击链接或图表,他将进入一个交互式图表界面,该网页允许他添加和删除不同地理区域的数据。这一搜索功能将为公共数据在知情的公众对话中发挥较为重要的沟通交流作用,也将有利于缺乏经验的用户便于搜索和查询到与其相关的数据。


谷歌在国际范围上扩展了这项服务。之后谷歌联系了欧盟统计局,探讨在这项功能之上使用欧盟统计局数据的可能性。因为欧盟统计局的数据在各成员国之间是统一的,而且可以通过批量下载免费获得,这使得谷歌运营者们从中看到了广阔的前景。


在欧盟统计局与谷歌达成共识之后,基于谷歌搜索引擎中使用的最常用搜索词列表,双方一起确定了匹配一个或多个常用搜索词的11个欧盟统计局数据集。随后,为了谷歌公共数据浏览器第一代版本的推出,双方共同收集了三个数据集的数据以供使用,它们分别是:欧盟HICP(调和消费者物价指数)、最低工资和月失业率。携带这三个数据集的谷歌公共数据浏览器工具于2010年3月由谷歌实验室正式推出,成为了GPDE首次公开亮相。


谷歌和欧盟统计局并没有停止开发的脚步,双方合作、整合并再度创新。谷歌方面为此直接提供了一些数据集,涉及失业率、政府债务、最低工资和宽带普及率等;而欧盟统计局在相关数据集上提供了所有必需的元信息。在此过程中,谷歌翻译了34种不同语言的表格标题、定义、脚注和标签,还对搜索引擎的搜索算法逻辑进行了更改,以确保适当的搜索能够直接指向这些数据集本身。


2010年10月,名为“OneBox”的搜索功能与欧盟统计局的4个数据集一起发布,这意味着,在“google.com”上搜索相关地区的数据集,都能够精确地定向到相关地域的结果,例如“比利时最低工资”、“意大利宽带普及率”等等。谷歌公共数据浏览器也做到了为欧盟统计局网站引流的效果——欧盟统计局将被作为数据来源在浏览器上重点标出,用户可以通过公共资源浏览器上的链接返回到欧盟统计局网站。浏览器上一共还有两个链接,一个是通过可视化工具中的“更多信息”链接回到欧盟统计局网站上的相关专用部分,另一个链接指向一个页面,该页面对数据集的所有相关元信息进行了重新分组。经统计发现,谷歌公共数据资源浏览器对欧盟统计局网站的流量影响非常重要。在谷歌搜索中集成后,这些欧盟统计局的数据集上的提取数量翻了一倍或三倍。


为了让更多的用户可以参与GPDE的使用,谷歌还推出了一个欧洲政策博客,向公众介绍公共数据浏览器的由来与使用。7


谷歌公共数据浏览器与欧盟统计局的合作取得了巨大的成效,截至2012年3月,有9个基于欧盟统计局数据的“数据立方体”(data cubes),可以使用谷歌公共数据浏览器访问。分别为:“欧洲失业率(月度)”、“欧洲消费价格协调指数”、“欧洲最低工资”、“欧洲宽带普及率”、“欧洲政府债务”、“欧洲道路运输”、“欧洲食品供应链监测”、“欧盟统计局,旅游人口统计”。8


2011年9月,随着谷歌实验室的逐步淘汰,谷歌将其浏览器描述为“有的放矢”(put more wood behind fewer arrows)的努力,公共数据浏览器被提升到可以完整替代谷歌的地位,并消除了观察员最初对公共数据浏览器项目无法持续的担忧。


免责声明:

本文转载自【清华大学智能法治研究院】,版权归原作者所有,如若侵权请联系我们进行删除!

易知微以自主研发的EasyV数字孪生可视化搭建平台为核心,结合WebGL、3D游戏引擎、GIS、BIM、CIM等技术,协同各个行业的生态伙伴,围绕着数字孪生技术、数字驾驶舱和行业应用,共同建设数字增强世界,帮助客户实现数字化管理,加速数字化转型。

易知微已经为3000+ 客户提供数字孪生可视化平台和应用,覆盖智慧楼宇、智慧园区、智慧城市、数字政府、数字乡村、智慧文旅、工业互联网等众多行业领域,包括国家电网、移动云、中交建、中铁建、融创、云上贵州、厦门象屿、天津火箭、上海电视台、金华防汛大脑、良渚古城遗址公园、李宁、浙江大学等典型案例!


收藏 0
分享
分享方式
微信

评论

全部 0条评论

9228

文章

4.67W+

人气

12

粉丝

1

关注

官方媒体

轻松设计高效搭建,减少3倍设计改稿与开发运维工作量

开始免费试用 预约演示

扫一扫关注公众号 扫一扫联系客服

©Copyrights 2016-2022 杭州易知微科技有限公司 浙ICP备2021017017号-3 浙公网安备33011002011932号

互联网信息服务业务 合字B2-20220090

400-8505-905 复制
免费试用
微信社区
易知微-数据可视化
微信扫一扫入群