数据可视化是指通过可视化表示来传达数据见解的技术。其主要目标是将大型数据集提取为可视化图形,以便轻松了解数据中的复杂关系。它经常与信息图形、统计图形和信息可视化等术语互换使用。
它是 Joe Blitzstein 制定的数据科学流程中的一个步骤,该流程是一个用于处理数据科学任务的框架。在完成数据收集、处理和建模后,我们需要对关系进行可视化处理,以便得出结论。
数据可视化技术也是更广泛的数据表示架构 (Data Presentation Architecture, DPA) 的组成部分,数据表示架构旨在以最有效的方式识别、定位、处理、格式化和呈现数据。
据世界经济论坛称,世界每天会产生 2.5 万兆字节的数据,并且目前 90% 的数据是在过去两年中产生的。数据如此庞大,管理和理解变得愈发困难。任何人都不可能通过逐行浏览数据来了解不同的模式和得出观察结果。数据增长可以作为数据科学流程的一部分进行管理,而数据可视化正是该流程的一部分。
信息处理
要了解数据可视化背后的科学,我们首先必须讨论人类如何收集和处理信息。Daniel Kahn 与 Amos Tversky 合作对我们的思维构成方式进行了广泛研究,而结论是我们会使用以下两种方法之一:
这是一种被无关数字左右的倾向。例如,熟练的谈判者会使用这种偏见,他们首先会提出低于自己预期的价格(锚点),然后再提出稍高于锚点的价格。
在我们脑海中,事件发生的频率并不是对实际概率的准确反映。这是一种心理捷径:假设可以记住的事件更有可能发生。
这是指我们倾向于用简单的问题替代困难的问题。这种偏见也经常被称为合取谬误或“Linda 问题”。以下示例提出了问题: Linda 今年31岁,单身、直言不讳、非常聪明。她主修哲学。作为一名学生,她非常关注歧视和社会正义问题,并参与了反核示威活动。 以下哪项更有可能? 1) Linda 是一名银行出纳 2) Linda 是一名银行出纳,活跃于女权主义运动 大部分研究参与者选择了第二个选项,即使该选项违反了概率定律。在他们看来,选项二更能代表 Linda,因此他们使用了替代原则来回答问题。
Kahn 认为这可能是我们最重要的偏见。乐观和损失厌恶为我们提供了控制错觉,因为我们倾向于只处理那些已经观察到的已知结果的可能性。我们通常不会考虑已知的未知因素或完全不可预见的结果。我们对这种复杂性的忽视,解释了为什么我们会使用较小的样本量对未来结果做出强有力的假设。
框架是指提供选择的上下文。例如,如果以 90% 的存活率而不是 10% 的死亡率作为框架,则更多受试者倾向于选择手术。
这种偏见常常出现在投资领域,人们愿意继续投资于表现欠佳、前景堪忧的资产,而不是退出投资,转向前景更为乐观的资产。
每个数据可视化均由这四个组成部分构成,在展示时应谨慎考虑。
这是最基本和最常用的可视化方法之一。可显示一个或多个变量随时间的变化情况。 何时使用: 需要显示变量随时间的变化情况时。
面积图是线形图的变体,可显示某时间序列中的多个值。 何时使用: 需要显示多个变量在一段时间内的累积变化时。
该图与线形图类似,只是使用条形来表示每个数据点。 何时使用:当您需要比较某个时间范围内的多个变量或者单个变量在时间序列中的情况时,使用条形图最为合适。
人口金字塔是堆叠的条形图,用于描绘人口的复杂社会叙事。 何时使用: 希望以百分比形式了解各部分在整体中的情况时。然而,很多专家建议使用其他形式,因为由于处理时间增加,人眼理解这种形式的数据会更加困难。很多人认为条形图或线形图更有意义。
该图以饼状形式显示各部分在整体中的情况。 何时使用:希望以百分比形式了解各部分在整体中的情况时。然而,很多专家建议使用其他形式,因为由于处理时间增加,人眼理解这种形式的数据会更加困难。很多人认为条形图或线形图更有意义。
树形图是一种以嵌套形式显示层次数据的方法。矩形的大小与每个类别在整体中的百分比成正比。 何时使用:如果存在多个类别,并且您希望比较各部分在整体中的情况时,这种图形最为合适。
该图可以比较指定变量的预期值与实际值。 何时使用:需要比较单个变量的预期值和实际值时。以上示例显示了每个类别销售的商品数量与预期数量。您可以很容易地看到,与其他所有类别相比,毛衣的销售表现与预期的差距最大,但连衣裙和短裤的销售表现都高于预期。
散点图以 X 轴和 Y 轴的形式以及代表数据点的各点显示两个变量之间的相关性。 何时使用:希望了解两个变量之间的相关性时。
直方图可绘制给定数据集中事件发生的次数,并以条形图形式显示。 何时使用:想要了解指定数据集的频率分布情况时。例如,您希望了解考虑到历史表现,每天销售 300 件商品的相对可能性。
这是一种非参数可视化方法,可显示分散度量。箱子表示数据点的第二和第三四分位数 (50%),箱内的直线则代表中位数。向箱外延伸的两条直线称为须状线,代表第一和第四四分位数,以及最小值和最大值。 何时使用:希望了解一个或多个数据集的分布情况时。需要最小化空间时,可使用该图代替直方图。
气泡图与散点图类似,但增加了更多功能,因为每个气泡的大小和/或颜色都可以表示其他数据。 何时使用:需要比较三个变量时。
热图是数据的图形表示,其中每个矩阵都表示一个独立值。色度表示图例定义的数量。 何时使用:当您希望跨数据矩阵分析变量(例如由天和小时组成的时间框架)时,该图非常实用。不同的色度可让您快速辨别极端情况。以上示例显示了一周中每天各时段的网站访客量。
等值域可视化是热图的变体,只是色度将应用于地图。 何时使用:需要按地理区域比较数据集时。
桑基图是一种流程图,其中箭头的宽度与流量成比例显示。 何时使用:需要将数量流可视化显示时。以上示例非常有名,显示了拿破仑军队在寒冷的冬天入侵俄罗斯时情况。该军队的军人数量起初非常庞大,但随着军队向莫斯科移动和撤退而不断减少。
该图可表示实体之间的复杂关系。它显示了每个实体与其他实体的联系,最终形成网络。 何时使用:需要比较网络中的关系时。该图尤其适用于大型网络。上图显示了西南航空公司的航线网络。
用户评论(1)
学习了~~~