整理原始数据经常是数据分析中让人非常烦恼的一步,原始数据经常出现缺漏、异常等问题,在分析过程中还需要去识别化。在城市分析中由于数据源的多样化,数据之间兼容更是个巨大的挑战。使用AI技术/机器学习对城市传感器收集的数据进行清理能够大大提高城市分析的效率。
在数据科学中,有一句古老而广为接受的格言:“输入的是垃圾,输出的也是垃圾。” 根据这一原则,除非底层数据本身具有高质量,否则任何分析、数据可视化和人工智能模型的产出都没有太大价值。由于城市数据来源差异很大,它们在内聚性方面经常存在差异,这可能会影响它们结合起来的精确性。本质上,城市数据往往模仿产生它们的繁忙、真实的城市环境的复杂性。数据处理技术和原则使数据从业者在实施项目之前需确保数据的整洁和完整性,从而确保通过Urban AI和其他输出分析或可视化产生的洞察价值。
数据处理包括广泛的工具和技术。总体上,数据处理可以采取数据清洗、聚类、脱敏、外推以及合并来自不同来源的数据集等形式。数据清洗主要是识别和纠正数据集中的错误或异常。通常,数据集可能包含由于收集而产生的错误或缺失数据点。例如,基于文本的数据可能包含拼写错误,传感器收集的数据可能出现传感器未进行正确读数时的丢失值,而基于位置的数据可能记录不同地理级别的数据,这取决于蜂窝网络。数据清洗过程使用算法来识别不符合预期模式的值,并根据数据工程师指定的一组规则更新这些值。有时,问题数据点只需从数据集中删除就行,但有时会考虑可疑数据附近的值进行插值估计,以便估算出一个更合理的值来替代可疑值。
和根据邻近值或更多已知值进行数据填补的插值估计相似,外推法则允许在收集边界之外创建缺失的数据点。外推法使用算法识别收集到的数据中的模式,并将模式扩展到已知信息之外。外推法经常用于时间分析,根据过去的趋势预测未来的数值。
聚合关注对个体观察进行分组,并将多个值简化为一个代表性值。执行简化时使用各种聚类度量,包括求和(将所有值相加以得到总数)、均值(计算所有值的平均值)、中位数(找到中间值)、众数(找到出现次数最多的值)、最小值(找到最低值)和最大值(找到最高值)。数据聚类会沿着时间、空间或分类线发生。当数据以比分析所需更高的频率收集时,通常会发生时间聚合。例如,某个时间点的交易数据可能会按天进行求和,以便分析每天的总和,而不是单笔交易。当数据以单个点位置收集,但分析需要结合某个空间级别的信息时,通常会发生空间聚类,例如,在具体的收集点了解变量的动态情况可能是有用的,但根据使用场景,在社区或城市层面上的值可能更有助于规划。在这些情况下,将使用几何计算技术来识别在给定区域内存在的数据点,并将它们的数值聚合到应用于相应的地理等级。在分类聚合的情况下,聚类会根据共同的属性特征(例如,个体可能按年龄组、性别、职业等进行分组)。
通常,聚类被用作一种去识别化技术,以保护个人隐私。在这些情况下,从聚类数据中识别出特定的个人变得更加困难。其他去识别化技术包括加密个人标识符(使真实值变得模糊的算法,使其难以追溯到特定的人)、随机化识别元素(例如,可能在数据点实际收集的给定半径内重新计算位置点的算法,使得难以识别出真实位置)以及将个人信息与分析中使用的其他数据点分离。
通常,为了全面了解某一现象,需要合并多个数据集。Faircloth, Connock, Welch, Elsworth 和 Escott(2022)提到了“数据马赛克”的概念,即“设计师”(这里的设计师概念可以扩展至城市规划实践者)将多学科领域(如“城市生态学、环境管理和公共卫生”)的数据融合,以便更全面地了解城市环境和动态。然而,将不同来源的数据结合在一起需要进行额外的数据处理,以确保数据之间的兼容性。通常,不同的数据来源会对日期或数字格式、地理坐标或数据结构进行不同的处理。在这些情况下,数据处理管道将重新计算数值并根据需要重新组织行和列,以确保不同数据集之间的共享格式,从而使它们能够正确合并。即使某个项目仅使用来自单一来源的数据,也可能需要对数据进行重构或重新格式化,以达到给定机器学习模型的输入格式要求。
数据整理可以以手动或自动的方式进行。手动数据整理是指一个人执行数据修改,而自动数据处理则利用一系列指令、计算和算法,在几乎没有人工干预的情况下完成数据处理任务。在某些情况下,例如数据质量差或极端变化使计算机难以识别模式并做出相应处理时,手动处理可能是实现数据准确性的唯一途径。然而,手动数据处理可能会产生巨大的时间和金钱成本,对于大型或频繁收集的数据集,这种成本很快就会变得难以承受。
另一方面,只要应用了适当的算法和条件,自动数据处理几乎可以立即并且更加一致地进行。根据自动处理的性质,可能会有与初始设置和持续维护过程相关的成本,同时可能与所需计算资源相关的成本(特别是如果自动处理任务在云端运行)。
随着新技术的不断发展,自动数据处理的准确性和能力得到了提高。Breeze Technologies 的首席执行官 Robert Heinecke 表示,该公司专注于空气质量监测系统,人工智能已经彻底改变了环境感测领域,特别是在提高数据收集和处理能力方面。过去的传感器技术需要耗时且昂贵的手动数据检索和处理过程,而现代设备使用算法来自动化大量工作。有了这些创新,可靠的、即时可用的传感器数据可以在接近实时的情况下获得,与以往捕获数据和生成可用数据产品之间的数月延迟相比,有了很大的改善。
传感器读数的准确性受到其周围环境的变化和仪器本身的轻微异常的影响。从传感器获取的任何原始数据都会包含一定量的无关信号和离群数据点,需要识别并纠正这些数据,以便在没有记录误差的情况下获得目标变量的准确图像。Breeze 开发了算法以实现两个主要目标:异常检测(即识别由于感测失误而产生的高概率数据点)和平滑/插值(即生成合理的值来填补异常或缺失的数据点所占据的空白)。他们的数据清理方法利用有关传感器和其周边环境的上下文数据,考虑到感测值的情境,针对每个设备的特性进行清理。为了实现这种特定的自动化,Heinecke 的团队由环境科学家组成,他们可以提供关于空气质量数据特性的专业知识,以及数据科学家/机器学习专家,这些专家可以构建必要的模型,以快速且自信地处理数据。整合这两种知识——既熟悉数据内容,又熟悉数据结构和技术——使得数据处理输出更具意义。
即使在没有人工智能和机器学习作为输出的情况下,数据可视化也能将城市数据转化为有意义的信息。而当与人工智能/机器学习或其他数据分析相结合时,数据可视化会进一步成为一个更加强大的工具,使用户能够理解结果的意义,确定行动的领域,并就项目产生的决定进行沟通。数据可视化可以用来突出模式和反常现象,使过去(数据积累)有意义,并(基于历史数据)对未来可能出现的情况有一个大致预期。通常情况下,数据可视化将会是由一个或多个图形、图表或地图组成。这些元素可以单独设计来传达信息,也可以基于一种方式组合起来,让它们共同讲述一个故事(通常被称为仪表面板)。
数据可视化可以是静态的,也可以是可动态交互的,这取决于预期的用途和如何将它们分发给用户/观众。对于静态的数据可视化,图表和地图将会正如创建数据可视化的人所设计的那样显示数据的特定“快照”。静态可视化允许信息在各种不同的平台上交流:在线,作为静态图像或PDF,或在一张打印的纸上。它们还允许设计者特别强调他们想要展示的模式或趋势。这对于简明的交流工作是非常有用的,或者在资源限制无法实施互动的情况下显示结果。另一方面,通过交互式数据可视化,图形和图表会根据用户的输入(例如,如果用户想突出不同的变量,评估一个自定义的时间框架,或放大到地图上的特定位置)或其他图形的变化而更新。这给了用户更多的灵活性来得出他们自己的结论和解释,而且它可以比静态布局更能吸引用户。一个值得注意的平台,CityScope,将互动性带入了三维空间,允许利益相关者实际改变模型中的城市元素,以观察各种政治或建筑干预措施的结果如何。通过将物理属性纳入数据可视化,公民在提供输入过程方面拥有更多的所有权(Popelka 2022)。纵观全局,交互式可视化在项目开始时特别有用,因为它们允许更自由地探索数据,在人工智能决策阶段也是如此,因为它们允许测试各种政策变化或查看情景建模的结果。然而,交互式可视化需要更多的基础设施开销,如专门的软件或网络开发工具,以便建立它们,以及网络托管基础设施,以便以互动方式分享它们。此外,根据其复杂性,交互式数据可视化可能需要额外的培训,以便让普通人了解如何浏览它们。
无论数据可视化是静态的还是互动的,一个好的可视化应该能够以一种简明而又不失技术性的方式传达关于数据集、数据分析和分析结果的关键信息。在这方面,在描述性和简单性之间取得平衡是关键。如果图表中的信息和视觉线索过多,那么就会无法获取启示,观众可能会感到困惑。如果一个图表的信息太少,那么它也将无法有效地传达结果,因为它可能缺乏必要的背景。当涉及实施这条路径时,仔细使用颜色、符号大小和标签可以产生很大的影响。改变一个元素的颜色或增加其大小会引起人们的注意并突出其重要性。给关键的方面贴上标签,包括一个图例,将澄清哪些变量被显示出来,以及通过某些颜色和大小的不同所要传达的内容。某些设计惯例(如用冷色或浅色表示较低的值或“较好”的值,用暖色或深色表示较高的值或 “较好”的值;同样,用大尺寸表示较大的值,用小尺寸表示较小的值)传达默认的含义。而对这些惯例的偏离往往需要解释,以强调被赋予标准表示的新含义。
在许多数据可视化中,信息是根据类别来分组的,以便将数据点的集合转化为更简洁的数据表达。有时,就像分类数据一样,分组是预先确定的。地理空间或时间性数据需要设计者决定显示的具体程度(可视化尺度)。例如,以一秒为间隔收集的时间数据可以按秒、分、小时、日、周等来显示,每一级的特定性都传达了不同的意义。同样地,在单点收集的地理空间数据可以显示为街区级、邻里级、城市级等,每一级也传达不同的含义。数字数据可以使用不同的分界线来归类,有些分界线的计算方法考虑到了数据的分布,有些则依赖于设计者对数据的预先了解。鉴于设计者可以做出广泛的选择,设计者必须了解作为可视化基础的数据和分析,以便对突出哪些方面和如何表现信息做出适当的选择。
Dataveyes公司的首席执行官兼联合创始人Caroline Goulard,通过定制的数据可视化工具来增强人与数据的互动,倡导数据作为一个重要且强大的沟通工具的作用。编制精心设计的图形和图表的过程使信息可见--为决策者释放新的洞察力,并使政府能够以有数据意义的方式告知公民并使其参与其中。为了有效地利用数据可视化工具,Goulard强调需要考虑被采集的数据的特殊性和所其提出的问题。她在每个项目开始时都会与客户接触,了解他们想从数据中了解的信息种类以及他们打算如何具体操作运用这些信息。有了对问题的清晰了解,她就能帮助客户设计适当的方式来表达信息,设计出能增强数据意义的图表,而不是操纵数据来适应可视化。为此,她的团队使用Javascript、React、Webgl、D3和Node.js等工具来创建定制的、针对具体环境的、交互式的图形和图表,但她也明确表示,更通用的商业软件仍然可以在普遍性的场景用例中提供同样水平的深度和美感。
Goulard试图尽可能地将交互性融入她的可视化作品中,因为她认为最有意义的结果和决策来自对所收集数据的动态和影响所获取到的亲身体验。在她的观念中,一个好的数据可视化应该让用户了解情况,测试想法,并看到这些想法对数据的影响。从洞悉了解情况的角度来看,可视化可以突出非图形统计方法所可能无法揭示的现象和趋势。很多时候,在处理极其细碎化(颗粒度)的数据时,可视化可以让呈现聚集的、总体性的模式出现,这超越了单个数据点所能提供的洞察力。例如,一个包含社区成员之间关系信息的表格可能不会提供关于这些关系的动态信息,但绘制网络图(关系图谱)可以立即发现每个人的不同程度的联系和向心性。
除了辅助决策,Goulard还强调了数据可视化作为重要的公民沟通工具的作用。居民与任何人工智能的实施都有密切的关系,他们或是项目的推动者,或是为系统提供数据的生产者,或是结果的接受者。基于这个原因,Goulard认为,在制定算法和确定决策工作的优先次序时,必须考虑到公民。通过数据可视化展示有关人工智能实施的关键信息,使城市能够以一种更容易理解的方式对居民开放透明地介绍其过程和结果。此外,通过数据可视化建立这种共享,可以在城市和市民之间建立一种建立在相互理解和共同反馈基础上的关系。
免责声明:
本文转载自【一览众山小—可持续城市与交通】,版权归原作者所有,如若侵权请联系我们进行删除!
易知微以自主研发的EasyV数字孪生可视化搭建平台为核心,结合WebGL、3D游戏引擎、GIS、BIM、CIM等技术,协同各个行业的生态伙伴,围绕着数字孪生技术、数字驾驶舱和行业应用,共同建设数字增强世界,帮助客户实现数字化管理,加速数字化转型。
易知微已经为3000+ 客户提供数字孪生可视化平台和应用,覆盖智慧楼宇、智慧园区、智慧城市、数字政府、数字乡村、智慧文旅、工业互联网等众多行业领域,包括国家电网、移动云、中交建、中铁建、融创、云上贵州、厦门象屿、天津火箭、上海电视台、金华防汛大脑、良渚古城遗址公园、李宁、浙江大学等典型案例!
文章
10.49W+人气
19粉丝
1关注
©Copyrights 2016-2022 杭州易知微科技有限公司 浙ICP备2021017017号-3 浙公网安备33011002011932号
互联网信息服务业务 合字B2-20220090