胡海波主讲
开卷
首选教材可视化导论数据可视化

1 数据可视化简介

一、数据可视化：简介

1.1 数据可视化的定义P1
1.2 为什么要数据可视化P12P13P14P15P16P17P18
- 视觉是人类获取信息的重要通道P12P13
- 将数据映射成视觉形式P13
- 增强数据识别效率P15
- 高效传输有用信息P15
- 案例：Anscombe’s DataP16P17P18
- 案例：H. Rosling’s SpeakingP19

二、可视化：意义 & 作用

2.1 可视化的目标P22P23
- 传递信息P22P23P24
- 探索性P23P24
- 解释性P23P24
2.2 可视化的用途P25P26P27P28P29P30P31P32P33
- 信息记录P26P27P28
  - 案例：达芬奇机械绘图P26P27
  - 案例：Minard 1812~1813拿破仑东征统计图P27P28
- 推理分析P28P29P30P31P32P33
  - 案例：奇数求和P28
  - 案例：勾股定理P29
  - 案例：霍乱防控伦敦鬼图P30
  - 案例：计算机网络 TCP拥塞控制P31
  - 案例：计算机网络 CSMA/CDP32
- 信息传播P33P34P35
  - 案例：中国历史P33P34
  - 案例：宋词可视化P34P35
- 可解释性 (AI)P35
  - 案例：J. Choo and S. Liu, “Visual Analytics for Explainable Deep Learning,”P35

三、可视化：前世 & 今生

3.1 可视化发展史P37P38P39P40P41P42P43P44P45P46P47
- 17世纪之前：图表萌芽P37
- 17世纪：物理测量P38
- 18世纪：图形符号P39P40
- 19世纪：数据图形P40P41
- 20世纪：现代启蒙、多维信息、多维统计图形、交互可视化、可视分析学P41P42P45
3.2 可视化 & 数据科学 & 智能科学P48P49P50P51
- 可视化与数据科学P48P49
- 可视化与智能科学P48P50
3.3 数据可视化分类P52P53
- 科学可视化P53
- 信息可视化P62P63P64
- 可视分析学P52P53

四、可视化：工具 & 软件

4.1 工具推荐：TableauP76P77
4.2 开发语言P77P78
- R语言P77P78
- EchartsP78
- D3.jsP79
- AntVP80
4.3 技术画像

2-上视觉感知与认知

课程回顾

数据可视化定义
应用领域
发展历史
学科分类 (科学可视化、信息可视化、可视分析学)P2
学者观点 (可视化与外部认知)P3

2.1 视觉感知

感知：客观事物通过感觉器官在人脑中形成的直接反映P6
感官器官：眼、耳、鼻、舌、其他P7
视觉感知：客观事物通过视觉在人脑中形成的直接反映P8P9
视网膜：椎细胞 (感知颜色和强光) 和杆细胞 (感知弱光)P9P10P11P12
认知：信息的获取、分析、归纳、解码、储存、概念形成、提取和使用P12P13
视觉认知的相关问题：
- 记忆 (例如：传球次数测试)P16P17
- 变化 (例如：观察变化测试)P19P20
- 相对性 (例如：亮度保持和尺寸比较)P20P24
- 错觉 (例如：各种视觉错觉图片)P27P28P29P30P31P32
- 眼见为真？ (例如：奇幻的Cube等图片)P34P35P36P37
视觉感知小结：可视化基于视觉感知和认知，需遵循相关规律，避免误区P37P38

2.2 视觉认知

2.2.1 前注意视觉

2.1 前注意视觉：快速有效地可视表达，例如使用颜色比形状更能快速检测奇异点P42P43P44

2.2.2 格式塔理论

2.2 格式塔 (Gestalt) 理论：
- 贴近原则P46
- 相似原则P46
- 连续原则P46
- 闭合原则P46
- 共势原则P46
- 好图原则P46
- 对称原则P46
- 经验原则P46
格式塔理论小结：视觉形象首先作为统一的整体被认知，然后才以部分的形式被认知

2.2.2.1 同类元素空间较近

2.2.2.2 同类往往相似

2.2.2.3 同类往往连续

2.2.2.4 若为同类忽略未闭合部分

2.2.2.5 走势相同归为一类

2.2.2.6 自动重组(联想)识别

2.2.2.7 倾向对称

2.2.2.8 (若有歧义情况会自动联想)

2-下视觉感知与认知

2.1 课程回顾

2.1.1 视觉感知

2.1.2 视觉认知

2.1.3 格式塔理论

贴近原则
相似原则
连续原则
闭合原则
共势原则
好图原则
对称原则
经验原则

2.2 视觉通道

2.2.1 视觉通道的类型

空间

标记

位置

尺寸

重点:人们往往对低纬尺寸大小更为敏感

颜色

亮度在HSV是高的方向越亮越接近白色越暗越接近黑色

饱和度

这会影响人对颜色的感受,饱和度越高越接近于本色,饱和度越低越接近白色在HSV是径向

色调

配色

透明度

方向

形状

纹理

动画

2.2.2 视觉通道的特性

视觉通道的类型：适合对什么属性进行编码？

定性：形状、色调、位置等
定量：尺寸（长度、面积）、角度、饱和度、亮度、纹理密度等
分组：位置（接近）、颜色（相似）、标记等

表现力和有效性：指导如何选择合适的视觉通道
忠于原始数据包含的信息：信
符合人类视觉认知的规律：达
呈现出美学和艺术等效果：雅

表现力判断标准

精确性
可辨性
可分离
视觉突出

2.3 五颜六色

2.3.1 波长和光谱

2.3.2 颜色编码

基色：红绿蓝（RGB）、红黄蓝（RYB）、青品红黄黑（CMYK）
模型：RGB、CMYK、RYB、HSV、HSL、LAB

RGB：物理三基色（发光物体），视网膜椎细胞

CMYK：适用于印刷模式（反射）

RYB：适用于艺术设计和应用

HSV：面向用户，符合主观感觉

HSL：CSS3采用的模式

对比 HSV HSL S

LAB：基于生理特征的颜色模型

2.3.3 补充知识

色轮

单色系法则

同色系法则

对比色法则

对比色法则+降低饱和度以实现降低单调性S

对比色分割法则

三角法则

四边形法则

低饱和度

不是近色调而是低饱和度

3 驾驭复杂的数据

课程目标：驾驭复杂的数据，进行有效的数据可视化

3.1 数据基础

3.1.1 数据属性：

定义：描述数据对象特征的变量
分类：
类别型属性：符号或名称，无大小和顺序关系
序数型属性：属性值有顺序关系，可比较和排序，不可计算
数值型属性：定量表达数据，可比较、排序和计算，分为连续型和离散型

3.1.2 数据结构：

全结构化数据：可用二维表结构表示，如数据库
非结构化数据：不便用二维表表示，如文本、图片、视频
半结构化数据：介于两者之间，如XML、JSON

3.1.3 关系度量：

类别型属性：相异度、Jaccard距离、Haming距离
比值型属性：欧氏距离、曼哈顿距离、切比雪夫距离等
序数型属性：归一化后使用比值型属性距离函数
区间型属性：将区间表示为向量，再使用比值型属性距离函数

3.1.4 统计特征：

集中趋势度量：均值、中位数、众数
离中趋势度量：标准差
数据分布形态：偏态、峰态、箱型图

3.1.5 数据特性：

误差、精度、噪声、缺失
数据集类型：表格数据、网络数据、网格数据、地理数据

3.2 数据分析

数据获取：企业数据、用户数据、传感器数据、科学数据、开放数据、网络爬虫、问卷调查
数据初探：数据质量分析和特征分析
数据预理：数据清理、数据集成、数据转换、数据规约
数据存储：文件存储、数据库存储、数据仓库
数据分析：统计分析、探索性分析、数据挖掘

3.3 可视化+

可视化+数据探索：通过可视化探索数据特征和规律
可视化+数据处理：利用可视化工具进行数据清洗、转换和规约
可视化+数据存储：可视化数据库结构，方便数据管理
可视化+数据挖掘：利用可视化技术辅助数据挖掘过程，提高效率和理解

3.4 总结

数据可视化是驾驭复杂数据的重要工具
需要理解数据基础、掌握数据分析方法，并选择合适的可视化工具
可视化可以帮助我们更好地理解数据，发现规律，做出决策

4 数据可视化流程(much)

4.1 整体流程框架

数据可视化流程

数据采集：传感器、记录、模拟采样等
数据处理与变换：清洗、标准化、平滑化、采样、分箱、降维、聚类等
任务分析：明确可视化目标和用户需求
可视化编码：选择标记和视觉通道
可视化分析与交互：用户与可视化结果交互、分析数据、获得知识灵感

4.2 数据处理与变换框架

4.2.1 数据处理

标准化：线性标准化、对数变换、Z-Score等
平滑化：曲线拟合（一次方程、指数、对数、多项式等）
采样：统计抽样与信号采样，考虑时间间隔问题

4.2.2 数据变换

分箱：离散化，将连续数据分组
降维：PCA、MDS、t-SNE、SOM、ISOMAP等
聚类：K均值、高斯混合模型、DBSCAN、层次聚类、谱聚类等

4.3 可视化编码框架

4.3.1 可视化标记

点（0维）、线（1维）、面（2维）、体（3维）

4.3.2 视觉通道

位置：水平、垂直、平面位置
尺寸：长度、面积、体积
形状：类别区分
方向：标记朝向
色相：类别区分
亮度：编码有序数据
饱和度：编码有序数据

4.3.3 编码优先级（定量型、定性型通道优先级排序）

定量优先：位置 > 长度 > 深度 > 亮度 > 饱和度 > 面积 > 曲率 > 角度 > 体积
定性优先：形状 > 色调 > 纹理 > 空间区域

4.3.4 可视化目标与图表类型

目标	图表类型
比较	柱状图、条形图、雷达图
分布	直方图、散点图、3D散点图
组合	堆叠柱状图、堆叠区域图、瀑布图
关系	散点图、气泡图

4.4 可视化设计框架

4.4.1 设计准则（5性原则）

表达力：真实反映数据内容
有效性：用户快速理解
简洁性：传达核心信息
易用性：用户友好、交互自然
艺术性：视觉美感增强表达

4.4.2 可视化构型（Idiom）

核心思想：根据目标和任务选择视觉通道、设计布局、排序、交互等
表格型、散点图型、条形图型、热图型等

4.4.3 尺度变换（Scaling）

横纵比调整：Banking to 45度
区间尺度变换：线性、对数
折叠与布局调整

4.4.4 可视化交互（Interaction）

滚动、缩放、筛选、细节层次控制（Drill Down/Roll Up）

4.4.5 可视化隐喻（Metaphor）

常见隐喻：树、河流、雷达、摩天轮、花朵等
作用：借助熟悉事物增强可视化直观性和易懂性

4.5 整体思维闭环

明确数据来源与特征
分析用户需求与任务目标
选择合适编码与可视化图表
结合交互设计与隐喻设计，提升用户体验
通过用户实验与反馈，持续迭代改进

总结

数据可视化流程是一个从数据到知识的完整闭环：

数据获取与处理
任务分析与编码设计
可视化映射与交互反馈
用户感知与知识发现

不断迭代、优化可视化表现，提升数据洞察能力与表达效果。