1.2 如何理解可视化
接下来我们将会展开讲解一个比图表制作更宽泛的概念——可视化。我们会讲解什么是可视化,生活中有哪些可视化,图表制作与可视化之间的关系,以及可视化作为数据分析工具的作用。
1.2.1 生活中的可视化
提到可视化,很多人的第一反应是图表制作。是的,图表制作在可视化概念的范畴内,可视化的相关内容非常广泛,图表制作只是其中的一部分。凡是使用大小、形状、颜色等视觉暗示的方法呈现数据或信息的过程,都可以称为可视化(Visualization)。在日常生活中,有很多可视化范例。例如,公司的财务报表或行业咨询报告中的数据展示图表属于可视化实例;主题公园的游玩导览图也属于可视化实例,它们一般被称为信息图(Info-Graphics);人们在出行时使用的地图导航也是时空数据信息的综合可视化呈现。
故宫博物院的官方在线游玩导览图如图1-6所示,游客可以很轻松地利用该图完成游玩路线规划、园区设施查找等任务。因为该图中包含各个景点和设施的地理位置信息,并且采用网页形式呈现,我们可以通过单击阅览更多信息,所以该图是在日常生活中使用的交互式数据可视化作品。
图1-6 故宫博物院的官方在线游玩导览图
虽然图1-6中没有呈现任何数字,但实际上各个景点和设施的经纬度已经以地图形式进行了表示。在这种场景中,越感觉不到数字的存在,表示可视化水平越高。类似的作品还有各大主题公园或大型活动的导览图,范例如图1-7所示。
图1-7中共呈现了2张类似的导览图,其中图①是上海迪士尼特制导览图,将导览图与常规地图应用软件相结合,可以对导览图进行自由缩放、平移查看;图②是香港海洋公园的官方游玩导览图,都是普通的平面导览图,具有基本景点与设施的位置信息和路径信息。
地图是与人们生活息息相关的可视化实例。在上面的范例中,我们看到了传统的手持传单式导览图可视化实例,也看到了结合互联网技术实现的交互式导览图可视化实例,这些都是基于地图这种可视化手段发展而来的。随着计算机图形学及互联网软硬件的发展,地图可视化的应用还会有更多形式。
图1-7 主题公园或大型活动导览图范例
与导览图相比,地图软件配套的线路导航功能涉及更多信息的综合呈现,不仅可以提供基础的建筑位置信息和路径信息,还额外增加了辅助行驶的监控摄像信息(使用特殊标识表示)、路径规划信息(使用连线表示)和实时车流量信息(使用颜色热力表示)。如果更加仔细地观察导航界面,则可以发现,转向和车道利用标识进行了可视化,路径全程使用线段按照百分比进行可视化,重要的时速及是否超速信息使用独立的标识牌和颜色进行区分,车辆方向使用箭头进行可视化,等等。利用这些可视化手段对大量不同维度的信息进行综合呈现,便形成了导航的最终模样。
随着与AI技术伴生的自动驾驶技术的发展,我们可以看到“导航”功能在可视化上的再一次质变。自动驾驶实时路况信息建模范例如图1-8所示,其中的图①和图②来自特斯拉自动驾驶安装系统,图③与图④来自小马智行广州自动驾驶实录。自动驾驶技术是指利用多种不同的车载传感器(如高分辨率摄像头、激光雷达、毫米波雷达)收集路况信息,然后利用AI技术与其他算法,综合多种传感器提供的信息,做出正确驾驶决策的技术。在通常情况下,计算机系统利用这些数据信息是不需要可视化的,但是如果可以将收集的信息更快速地提供给驾驶员,则可以更好地保障行驶安全,因此对路况信息的可视化普遍应用于自动驾驶过程中。
图1-8 自动驾驶实时路况信息建模范例
我们可以想象一下,通过传感器能够获得什么样的信息?大概率是一串串数据,这些数据需要通过预设好的程序进行“翻译”,并且将翻译得到的信息使用“建模”的方式直观地呈现给使用者。例如,在图1-8所示的所有图片中都可以看到附近车辆的数字模型,在更加精细化的模型中,还会进一步区分不同的车型、交通工具、线路、交通指示灯等,用于更好地辅助驾驶。可以想象,不进行可视化的信息,即使直白地告诉我们,也不可能在非常短的时间内传达到大脑中。
除了上面的范例,工作和生活中的可视化实例还有很多,如股市的价格指标走势图、交通管理部门的城市道路流量图、电力系统的功率负载分配图、游戏的交互界面、短视频平台的后台数据分析面板、艺术作品等。认真观察,从中学习,可以为我们制作图表提供很多有意义的参考和启发。
1.2.2 可视化分析
对于可视化概念,我们需要强调的第二个点是可视化分析。在一般的理解中,我们很容易默认数据可视化是完整数据分析流程中的最后一步,认为它的核心功能只是将数据用更加直观的方式呈现和表达,以便论证观点。
说明:数据分析的一般完整流程是提出问题、制定方案、获取数据、整理数据、分析数据、数据可视化,最后返回提出问题环节,形成循环。
可视化是一个非常强大的数据分析工具,尤其在学术和研究领域。试想一下,如果你面前摆放着“成吨”的数据,那么你要如何阅读它们?一行一行地阅读不太现实,因为数据量太大了,并且无法直观地为其建立各个维度之间的联系。在用条件筛选数据后阅读,只能看到某个切面,无法察觉数据内蕴藏的信息,从而快速找到突破的方向。在这种情况下,你就会对“可视化是一个非常强大的数据分析工具”这句话有所体会。
对某个数据集而言,快速地构建可视化图表并进行呈现,即使采用最简单的形式,也可以极大地帮助我们找到数据的特征和值得深入分析的部分数据。
可视化分析范例如图1-9所示,左侧为原始数据,乍看之下都是随机数字,很难发现特别之处,但在经过“色阶图”的简单可视化后,即可发现,左下方的数据明显较小,可以将其作为重点分析区域进行进一步研究。如果不利用可视化手段,那么要发现这个突破点还是有一定难度的。
图1-9 可视化分析范例
图1-9所示的数据集中其实只有大约200个数据点,但已经超出了一般人类大脑的处理极限,实际分析的数据集通常都比这个体量大,并且具有更多的维度。因此,通常会利用快速可视化技术进行初步分析,观察数据特征。如果你正在制作图表,但苦于数据集过大而没有头绪,那么不妨试试先将数据集可视化,再进行观察,也许能够找到可疑之处,缩小分析范围,最终挖掘出有效信息。
说明:快速可视化和精致的图表制作是不同的,因为快速可视化的目的是发现数据集的特征,所以其布局、字体、说明、颜色等图表设计要素都是不重要的,其核心是要简单、迅速地从多个不同的角度构建可视化图表,最终以最高效率发现数据集的特别之处并进行深入分析。