数据可视化

胡海波 主讲
开卷
首选教材 可视化导论 数据可视化

1 数据可视化简介

一、数据可视化:简介

  • 1.1 数据可视化的定义P1
  • 1.2 为什么要数据可视化P12P13P14P15P16P17P18
    • 视觉是人类获取信息的重要通道P12P13
    • 将数据映射成视觉形式P13
    • 增强数据识别效率P15
    • 高效传输有用信息P15
    • 案例:Anscombe’s DataP16P17P18
    • 案例:H. Rosling’s SpeakingP19

二、可视化:意义 & 作用

  • 2.1 可视化的目标P22P23
    • 传递信息P22P23P24
    • 探索性P23P24
    • 解释性P23P24
  • 2.2 可视化的用途P25P26P27P28P29P30P31P32P33
    • 信息记录P26P27P28
      • 案例:达芬奇机械绘图P26P27
      • 案例:Minard 1812~1813拿破仑东征统计图P27P28
    • 推理分析P28P29P30P31P32P33
      • 案例:奇数求和P28
      • 案例:勾股定理P29
      • 案例:霍乱防控 伦敦鬼图P30
      • 案例:计算机网络 TCP拥塞控制P31
      • 案例:计算机网络 CSMA/CDP32
    • 信息传播P33P34P35
      • 案例:中国历史P33P34
      • 案例:宋词可视化P34P35
    • 可解释性 (AI)P35
      • 案例:J. Choo and S. Liu, “Visual Analytics for Explainable Deep Learning,”P35

三、可视化:前世 & 今生

  • 3.1 可视化发展史P37P38P39P40P41P42P43P44P45P46P47
    • 17世纪之前:图表萌芽P37
    • 17世纪:物理测量P38
    • 18世纪:图形符号P39P40
    • 19世纪:数据图形P40P41
    • 20世纪:现代启蒙、多维信息、多维统计图形、交互可视化、可视分析学P41P42P45
  • 3.2 可视化 & 数据科学 & 智能科学P48P49P50P51
    • 可视化与数据科学P48P49
    • 可视化与智能科学P48P50
  • 3.3 数据可视化分类P52P53
    • 科学可视化P53
    • 信息可视化P62P63P64
    • 可视分析学P52P53

四、可视化:工具 & 软件

  • 4.1 工具推荐:TableauP76P77
  • 4.2 开发语言P77P78
    • R语言P77P78
    • EchartsP78
    • D3.jsP79
    • AntVP80
  • 4.3 技术画像

2-上 视觉感知与认知

课程回顾

  • 数据可视化定义
  • 应用领域
  • 发展历史
  • 学科分类 (科学可视化、信息可视化、可视分析学)P2
  • 学者观点 (可视化与外部认知)P3

2.1 视觉感知

  • 感知:客观事物通过感觉器官在人脑中形成的直接反映P6
  • 感官器官:眼、耳、鼻、舌、其他P7
  • 视觉感知:客观事物通过视觉在人脑中形成的直接反映P8P9
  • 视网膜:椎细胞 (感知颜色和强光) 和 杆细胞 (感知弱光)P9P10P11P12
  • 认知:信息的获取、分析、归纳、解码、储存、概念形成、提取和使用P12P13
  • 视觉认知的相关问题:
    • 记忆 (例如:传球次数测试)P16P17
    • 变化 (例如:观察变化测试)P19P20
    • 相对性 (例如:亮度保持和尺寸比较)P20P24
    • 错觉 (例如:各种视觉错觉图片)P27P28P29P30P31P32
    • 眼见为真? (例如:奇幻的Cube等图片)P34P35P36P37
  • 视觉感知小结:可视化基于视觉感知和认知,需遵循相关规律,避免误区P37P38

2.2 视觉认知

2.2.1 前注意视觉

  • 2.1 前注意视觉:快速有效地可视表达,例如使用颜色比形状更能快速检测奇异点P42P43P44

2.2.2 格式塔理论

  • 2.2 格式塔 (Gestalt) 理论:
    • 贴近原则P46
    • 相似原则P46
    • 连续原则P46
    • 闭合原则P46
    • 共势原则P46
    • 好图原则P46
    • 对称原则P46
    • 经验原则P46
  • 格式塔理论小结:视觉形象首先作为统一的整体被认知,然后才以部分的形式被认知

2.2.2.1 同类元素空间较近

2.2.2.2 同类往往相似

2.2.2.3 同类往往连续

2.2.2.4 若为同类 忽略未闭合部分

2.2.2.5 走势相同 归为一类

2.2.2.6 自动重组(联想)识别

2.2.2.7 倾向对称

2.2.2.8 (若有歧义情况 会自动联想)

2-下 视觉感知与认知

2.1 课程回顾

2.1.1 视觉感知

2.1.2 视觉认知

2.1.3 格式塔理论

贴近原则
相似原则
连续原则
闭合原则
共势原则
好图原则
对称原则
经验原则

2.2 视觉通道

2.2.1 视觉通道的类型

空间


标记


位置


尺寸

重点:人们往往对低纬尺寸大小更为敏感


颜色


亮度 在HSV是高的方向 越亮越接近白色 越暗越接近黑色

饱和度

这会影响人对颜色的感受,饱和度越高越接近于本色,饱和度越低越接近白色 在HSV是径向

色调

配色


透明度


方向


形状


纹理


动画


2.2.2 视觉通道的特性

视觉通道的类型:适合对什么属性进行编码?


定性:形状、色调、位置等
定量:尺寸(长度、面积)、角度、饱和度、亮度、纹理密度等
分组:位置(接近)、颜色(相似)、标记等


表现力和有效性:指导如何选择合适的视觉通道
忠于原始数据包含的信息:信
符合人类视觉认知的规律:达
呈现出美学和艺术等效果:雅

表现力判断标准

  1. 精确性
  2. 可辨性
  3. 可分离
  4. 视觉突出

2.3 五颜六色

2.3.1 波长和光谱

2.3.2 颜色编码

基色:红绿蓝(RGB)、红黄蓝(RYB)、青品红黄黑(CMYK)
模型:RGB、CMYK、RYB、HSV、HSL、LAB


RGB:物理三基色(发光物体),视网膜椎细胞


CMYK:适用于印刷模式(反射)


RYB:适用于艺术设计和应用


HSV:面向用户,符合主观感觉


HSL:CSS3采用的模式

对比 HSV HSL S


LAB:基于生理特征的颜色模型

2.3.3 补充知识

色轮


单色系法则

同色系法则

对比色法则

对比色法则+降低饱和度 以实现降低单调性S


对比色分割法则

三角法则

四边形法则

低饱和度

不是近色调 而是低饱和度

3 驾驭复杂的数据

课程目标: 驾驭复杂的数据,进行有效的数据可视化

3.1 数据基础

3.1.1 数据属性:


定义:描述数据对象特征的变量
分类:
类别型属性:符号或名称,无大小和顺序关系
序数型属性:属性值有顺序关系,可比较和排序,不可计算
数值型属性:定量表达数据,可比较、排序和计算,分为连续型和离散型

3.1.2 数据结构:


全结构化数据:可用二维表结构表示,如数据库
非结构化数据:不便用二维表表示,如文本、图片、视频
半结构化数据:介于两者之间,如XML、JSON

3.1.3 关系度量:


类别型属性:相异度、Jaccard距离、Haming距离
比值型属性:欧氏距离、曼哈顿距离、切比雪夫距离等
序数型属性:归一化后使用比值型属性距离函数
区间型属性:将区间表示为向量,再使用比值型属性距离函数

3.1.4 统计特征:


集中趋势度量:均值、中位数、众数
离中趋势度量:标准差
数据分布形态:偏态、峰态、箱型图

3.1.5 数据特性:

误差、精度、噪声、缺失
数据集类型: 表格数据、网络数据、网格数据、地理数据

3.2 数据分析


数据获取: 企业数据、用户数据、传感器数据、科学数据、开放数据、网络爬虫、问卷调查
数据初探: 数据质量分析和特征分析
数据预理: 数据清理、数据集成、数据转换、数据规约
数据存储: 文件存储、数据库存储、数据仓库
数据分析: 统计分析、探索性分析、数据挖掘

3.3 可视化+

可视化+数据探索: 通过可视化探索数据特征和规律
可视化+数据处理: 利用可视化工具进行数据清洗、转换和规约
可视化+数据存储: 可视化数据库结构,方便数据管理
可视化+数据挖掘: 利用可视化技术辅助数据挖掘过程,提高效率和理解

3.4 总结

数据可视化是驾驭复杂数据的重要工具
需要理解数据基础、掌握数据分析方法,并选择合适的可视化工具
可视化可以帮助我们更好地理解数据,发现规律,做出决策

4 数据可视化流程(much)

4.1 整体流程框架

数据可视化流程

  • 数据采集:传感器、记录、模拟采样等
  • 数据处理与变换:清洗、标准化、平滑化、采样、分箱、降维、聚类等
  • 任务分析:明确可视化目标和用户需求
  • 可视化编码:选择标记和视觉通道
  • 可视化分析与交互:用户与可视化结果交互、分析数据、获得知识灵感

4.2 数据处理与变换框架

4.2.1 数据处理

  • 标准化:线性标准化、对数变换、Z-Score等
  • 平滑化:曲线拟合(一次方程、指数、对数、多项式等)
  • 采样:统计抽样与信号采样,考虑时间间隔问题

4.2.2 数据变换

  • 分箱:离散化,将连续数据分组
  • 降维:PCA、MDS、t-SNE、SOM、ISOMAP等
  • 聚类:K均值、高斯混合模型、DBSCAN、层次聚类、谱聚类等

4.3 可视化编码框架

4.3.1 可视化标记

  • 点(0维)、线(1维)、面(2维)、体(3维)

4.3.2 视觉通道

  • 位置:水平、垂直、平面位置
  • 尺寸:长度、面积、体积
  • 形状:类别区分
  • 方向:标记朝向
  • 色相:类别区分
  • 亮度:编码有序数据
  • 饱和度:编码有序数据

4.3.3 编码优先级(定量型、定性型通道优先级排序)

  • 定量优先:位置 > 长度 > 深度 > 亮度 > 饱和度 > 面积 > 曲率 > 角度 > 体积
  • 定性优先:形状 > 色调 > 纹理 > 空间区域

4.3.4 可视化目标与图表类型

目标图表类型
比较柱状图、条形图、雷达图
分布直方图、散点图、3D散点图
组合堆叠柱状图、堆叠区域图、瀑布图
关系散点图、气泡图

4.4 可视化设计框架

4.4.1 设计准则(5性原则)

  • 表达力:真实反映数据内容
  • 有效性:用户快速理解
  • 简洁性:传达核心信息
  • 易用性:用户友好、交互自然
  • 艺术性:视觉美感增强表达

4.4.2 可视化构型(Idiom)

  • 核心思想:根据目标和任务选择视觉通道、设计布局、排序、交互等
  • 表格型、散点图型、条形图型、热图型等

4.4.3 尺度变换(Scaling)

  • 横纵比调整:Banking to 45度
  • 区间尺度变换:线性、对数
  • 折叠与布局调整

4.4.4 可视化交互(Interaction)

  • 滚动、缩放、筛选、细节层次控制(Drill Down/Roll Up)

4.4.5 可视化隐喻(Metaphor)

  • 常见隐喻:树、河流、雷达、摩天轮、花朵等
  • 作用:借助熟悉事物增强可视化直观性和易懂性

4.5 整体思维闭环

  1. 明确数据来源与特征
  2. 分析用户需求与任务目标
  3. 选择合适编码与可视化图表
  4. 结合交互设计隐喻设计,提升用户体验
  5. 通过用户实验与反馈,持续迭代改进

总结

数据可视化流程是一个从数据到知识的完整闭环:

  • 数据获取与处理
  • 任务分析与编码设计
  • 可视化映射与交互反馈
  • 用户感知与知识发现

不断迭代、优化可视化表现,提升数据洞察能力与表达效果。


5标量场数据可视化

6地理空间数据可视化

2025/3/24

7 时变数据可视化

8 高维数据可视化

9 层次数据可视化

本技术内容仅供学习和交流使用,如有疑问请联系qq2014160588并注明来意。请确保在使用过程中遵守相关法律法规。任何因使用本技术内容而导致的直接或间接损失,作者概不负责。用户需自行承担因使用本技术内容而产生的所有风险和责任。请勿将本技术内容用于任何非法用途。
上一篇
下一篇