数据可视化(第二版)陈为 —视物致知

整体结构

基础篇:数据可视化的基础理论和概念

  • 第1章:可视化的定义、作用和发展历史,数据可视化的现代意义和分类
  • 第2章:视觉感知和认知的基本原理、颜色模型和可视化编码原则
  • 第3章:数据模型、数据定义、数据组织与管理、数据分析与挖掘等基本概念
  • 第4章:数据可视化基础,包括可视化流程、图形符号、视觉变量和评估方法等内容

时空数据篇:含空间坐标或时间信息的数据的可视化方法

  • 第5章:空间标量场数据可视化(一维、二维、三维)
  • 第6章:含地理信息的空间数据的可视化技术
  • 第7章:大尺度或随时间变化的空间标量场的可视化解决方案和挑战,空间向量场和张量场数据的可视化方法,多变量空间数据场的可视化
  • 第8章:带有时间信息的数据可视化(包时间属性可视化、多变量时变型数据可视化和流数据可视化)

非时空数据篇:非结构和非集合抽象数据的可视化

  • 第9章:层次结构数据可视化
  • 第10章:文本数据可视化
  • 第11章:跨媒体数据可视化
  • 第12章:复杂高维多元数据可视化

用户篇

  • 第13章:可视化中的交互方法(交互准则、交互分类和相关技术)
  • 第14章:可视化评测(可视化评测的因素、方法、流程和具体实例)
  • 第15章:可视化技术(科学技术、生命医学、网络安全、商业智能和金融等领域)
  • 第16章:可视化系统(应用系统、数据资源、开发工具…)

基础篇

第1章:数据可视化简介

1.1 可视化释义

可视化功能:

  • 信息记录
  • 支持对信息的推理和分析
  • 信息传播与协同

1.2 可视化简史

1.3 数据可视化详解

1.3.1 基本模型:数据、信息、知识、智慧

  • 数据:对目标观察和记录的结果,是关于现实世界中的时间、地点、事件、其他事物或概念的描述(事实、信号、符号)
  • 信息:被赋予了意义和目标的数据
  • 知识:一个隐晦的、意会的、难以描述和定义的概念,是被处理、组织过、应用或付诸行动的信息。(处理、过程、命题)
  • 智慧:启示性的,知道是什么,如果去做

1.3.2 意义:需达到真、善、美的均衡

  • 真:真实性
  • 善:倾向性
  • 美:艺术完整性

1.3.3 数据可视化分类

  • 科学可视化
    • 标量场可视化
    • 向量场可视化:粒子对流法、将向量场转换为一帧或多帧纹理图像、采用简化易懂的图标编码单个或简化后的向量信息(线条、箭头和方向标志)
    • 张量场可视化(标量可看做0阶张量,矢量可看做1阶张量):纹理、几何、拓扑
  • 信息可视化
    • 时空数据可视化
    • 层次与网络结构数据可视化
    • 文本和跨媒体数据可视化
    • 多变量数据可视化
  • 可视分析学:以可视交互界面为基础的分析推理科学

面向领域的可视化方法和技术

  • 生命科学可视化
  • 表象性可视化
  • 地理信息可视化
  • 产品可视化
  • 教育可视化
  • 系统可视化
  • 商业智能可视化
  • 知识可视化

第2章:视觉感知与认知

2.1 视觉感知和认知

2.2 颜色

2.3 视觉编码原则

2.3.1 相对判断和视觉假象

2.3.2 标记和视觉通道

2.3.3 视觉通道的概念

2.3.4 视觉通道的特性

  • 平面位置
  • 颜色
  • 尺寸
  • 斜度和角度
  • 形状
  • 纹理
  • 动画
  • 视觉多通

第3章:数据

3.2 数据基础

3.2.1 数据分类

3.2.2 数据集

  • 数据记录集
  • 图数据集
  • 有序数据集

3.2.3 数据相似度与密度

3.3 数据获取、清洗和预处理

3.3.1 数据获取

3.3.2 数据清洗

3.3.3 数据精简

3.3.4 其他常见的数据预处理步骤

  • 合并
  • 采样
  • 降维
  • 特征子集选择
  • 特征生成
  • 离散化和二值化
  • 属性变换

3.4 数据组织与管理

3.5 数据分析与挖掘

3.6 数据科学与可视化

第4章:数据可视化基础

4.1 数据可视化的基本框架

4.1.1 数据可视化流程

流程中的核心要素

  • 数据表示与变换
  • 数据的可视化呈现
  • 用户交互

4.1.2 数据可视化设计

四个级联的层次

  1. 刻画真实用户问题
  2. 抽象层:将特定领域的任务和数据映射到抽象且通用的任务及数据类型
  3. 编码层:设计与数据类型相关的视觉编码及交互方法
  4. 最内层:创建正确完成系统设计的算法

4.2 可视化中的数据

4.2.1 数据认知

4.2.2 数据类型

4.3 可视化的基本图表

4.4 可视化设计原则

4.4.1 数据到可视化的直接映像

4.4.2 视图选择与交互设计

视图的交互包括以下一些方面

  • 滚动与缩放
  • 颜色映射的控制
  • 数据映射方式的控制
  • 数据缩放与裁剪工具
  • LOD控制(细节层次控制)

4.4.3 信息密度——数据的筛选

….

4.5 可视化理论发展

时空数据篇

第5章:空间标量场可视化

标量场:空间采样位置上记录单个标量的数据场

5.1 一维标量场可视化

沿着空间中某条路径采样得到的标量场数据

5.2 二维标量场可视化

5.2.1 颜色映射

5.2.2 等值线

5.2.3 高度图

将二维空间标量场转换为三维空间的高度网格

5.3 三维标量场数据可视化

5.3.1 空间数据表达

  1. 空间网格形式

    • 均匀网格
    • 矩形网格
    • 曲线网格
    • 不规则网格
  2. 空间网格采样方式:常规的三维数据场采样方式为立方点阵

    • 简单点阵(笛卡尔点阵)
    • 体中心立方点阵
    • 面中心立方点阵
  3. 离散采样重建

  4. 离散采样压缩

5.3.2 空间数据特征计算

  • 梯度
  • 曲率
  • 特征线
  • 其他艺术手段(点画、区域填充、阴影、光晕等)
  • 拓扑结构:轮廓树等

5.3.3间接体绘制

  • 移动立方体法

  • 几何空间法

    采用显式的几何计算快速判断体素是否与等值面相交,常见方法为:采用八叉树构建三维层次结构,去除与等值面不相交的体素。

  • 值域空间法

  • 图像空间法

5.3.4 规则三维标量场的直接体可视化

  1. 基本原理与光学模型:直接体绘制
  2. 采样重建
  3. 体数据分类:将采样后的标量值标记为不同的类别,并映射为可区分这些类别的光学属性
  • 以图像为中心的传输函数设计
  • 以数据为中心的传输函数设计
  • 混合图像和数据的智能数据分类
  1. 光照计算

  2. 光学积分

  3. 体绘制流程

基于体绘制积分的直接体绘制算法:

  • 图像空间扫描法:扫描每个像素
    • 光线投射法
  • 物体空间投影法:按深度顺序遍历三维标量场每个体素
    • 纹理切片法
    • 滚雪球法:将体素看做空间核函数投影到屏幕图像,并将体素发射的能量扩散至投影中心周围的像素上,仿佛雪球落在地面上,形成体素投影足迹

5.3.5 不规则体数据的体可视化

  1. 基于规则化和半规则化的可视化

优点:采用重采样方法将不规则数据场转换为规则或半规则表示,减少存储量,提高绘制效率

缺点:采样精度和存储冗余

  1. 自适应网格数据的直接体可视化
  2. 四面体结构标量场的直接体可视化
  3. 无网格体绘制

第6章:地理信息可视化

6.1 地图投影

6.1.1 墨卡托投影

即平常所见的世界地图就是墨卡托投影得来

6.1.2 亚尔勃斯投影

等积圆锥投影。首先使圆锥投影面与地球球面相割于两条纬线上,然后按照等面积条件将地球的经纬网投影到圆锥面上,将圆锥面展开就得到了亚尔勃斯投影。

6.1.3 方位角投影

地图上任何一点沿着经度线到投影中远点的距离保持不变。

联合国国徽上的地图就采用了方位角投影方法。

6.2 点数据可视化

点数据描述对象是地理空间中离散的点,具有经度和纬度的坐标,但不具备大小尺寸

6.3 线数据可视化

6.4 区域数据的可视化

6.4.1 Choropleth地图

Choropleth地图可视化假设数据的属性在一个区域内部平均分布,因此一个区域用同一种颜色来表示其属性。

Choropleth地图最大的问题在于:数据分布于地理区域大小的不对称。通常大量数据集中于人口密集的区域,而人口稀疏的地区却占有大多数的屏幕空间,用大量的屏幕空间来表示小部分数据的做法对空间的利用非常不经济,这种不对称害常常会造成用户对数据的错误理解。

6.4.2 Cartogram

Catrtogram可视化按照地理区域的属性值对各个区域进行适当的变形,以克服Choropleth地图对空间使用的不合理性

6.4.3 规则形状地图

采用更简单的几何形状来表示地图上的区域,例如矩形或者圆形,这是因为标准的几何图形使用户能更容易地判断区域的面积大小。

6.4.4 多元关系地图

不同地理位置的区域属性可能具有关联关系。

气泡集合法—->线集合方法

6.5 地理信息可视化的应用

6.5.1 地球与生存环境

气象相关的数据,地震波传递的模拟数据,鸟类的分布…

6.5.2 城市与日常生活

6.5.3 地理时空数据

不仅包括了地理空间的位置,也包括了随时间变化的信息

6.5.4 复杂地理数据的可视化

6.6 地理信息可视化的其他挑战

6.6.1 地图标注

如何将文字或图形的标识合理放置在地图上

6.6.2 地图综合

根据不同的需求,需要对同一个区域绘制大尺寸的详图和小尺寸的简图。

第7章:大规模多变量空间数据场可视化

科学数据可分为:

  • 多维度:物理空间中独立变量的维数
  • 多变量:变量和属性的数目
  • 多模态:获取数据的方法不同,各自对应的数据的组织结构和尺度不同
  • 多趟
  • 多模型

7.1 大规模空间标量场数据的实体可视化

  1. 大规模空间标量场数据的单机绘制
  2. 大规模空间标量场数据的并行绘制
  3. 时变空间标量场数据加速绘制方法

7.2 时变异构空间数据场的特征追踪与可视化

时变标量场数据可视化的两大挑战:

  • 不规则:科学数据的复杂形态
  • 多变量:物理空间的本质特征

7.2.1 时变空间标量场数据的特征提取

  • 可在每个时间步单独提取,但逐帧提取会造成提取的特征在时间维度上没有对应性和连续性
  • 看做一个四维数据,统一提取时变特征

7.2.2 异构数据的特征融合

  • 多维度融合

可采用信息可视化相关方法,如平行坐标、散点图、时间直方图、纹理、影线、图标等

  • 多模态融合

挑战在于融合方式难以定义,空间分布也可能差异很大。因此,这类数据一般需先经过配准,并转化为相同格式后才能进行融合可视化

7.2.3 时变空间标量场数据的特征追踪

结合多视图、用户交互以及可视化分析方法。从时间、数据与表现三个角度出发确定具体的可视化原则

7.3 空间向量场数据可视化

主要目标:展示场的导向趋势信息;表达场中的模式;识别关键特征区域

流场可视化是向量场可视化中最重要的组成部分。流场可视化将物理工程产生的或与之相关的现象通过可视化以人眼能感知的图像形式显示。

7.3.1 图标法

采用图标逐个表达变量。主要图标有:线条、箭头和方向标志符

图标法简单易实现,但对于采样比较密集的数据场,将所有的向量逐点映射为图标常会导致所生成的图像杂乱无章,显示太少又不能准确地把握向量场的变化情况。此外,图标无法揭示数据的内在连续性;流场中一些特征像涡流等结构也很难用图标清晰地表达。

7.3.2 几何法

  1. 基于曲线的可视化

    • 面向稳定向量场:流线

    描述向量场空间中任意一点处向量场的切线方向。

    • 面向不稳定/时变向量场:迹线和脉线

    迹线:描述向量场中一个粒子在某一时间段的流动轨迹。流线是假想的曲线,是不存在的;而迹线是实际存在的曲线,随着粒子的运动产生

    脉线:描述一个粒子集合从一个起始点不同时间发射,在之后的某一时刻获取该粒子几何中粒子的位置并连接形成的轨迹。

  2. 基于曲面的可视化

    • 面向稳定向量场:流面、流球和流形箭头
    • 面向不稳定/时变向量场:脉面
  3. 基于体的可视化

    流体可视化。将追踪粒子撒入流场,捕获粒子的运动轨迹,形成三维空间内的一个流体,继而将该流体通过特定算法转化为一个四面体的集合。

7.3.3 纹理法

  1. 点噪声

    以单点作为生成纹理的基本单元,将随机位置、随机强度的点混合形成噪声纹理。

  2. 线积分卷积

    以随机生成的白噪声作为输入纹理,根据向量场数据对噪声纹理进行低通滤波

  3. 纹理平流

    根据向量场方向移动一个纹元或者一组纹元,以达到刻画向量场特征的目的

  4. 拓扑法

    任意向量场的拓扑结构由临界点和链接临界点的曲线或曲面组成。

    • 临界点位置的计算与分类

      临界点为向量场中各个分量均为零的点。所有的流线汇聚于这些临界点,因此这些临界点被认为是流线的“交点”。

    • 向量场区域边界的计算

7.4 空间张量场数据可视化

张量:由若干坐标系改变时满足一定坐标转化关系的有序数组成的集合。

张量场可视化方法可基本分为:几何、纹理、拓扑三大类

三维二阶张量场数据是一种常见的可视化对象

7.4.1 张量场的数学描述

7.4.2 基于几何的方法

  1. 图标法

    • 采样张量场,选取一些有代表性的采样点
    • 遍历每个采样位置,根据张量信息选取合适的几何表达方法,构建张量图标
  2. 纤维追踪法

    二阶对称张量可分解为三个特征向量,其主特征向量与纤维的走向基本保持一致。纤维追踪算法步骤:

    • 在主特征向量场中布局种子点
    • 以种子点为起始追踪位置,沿主特征向量向前向后追踪,直至满足给定的终止条件。

    本质上,纤维追踪是一种基于积分曲线的可视化方法,可从宏观上解释组织结构的连续性。

7.4.3 基于纹理的方法

将张量的全部或部分属性映射为颜色,进而将张量场看成一张超纹理

  1. 直接体可视化

    对原始张量场数据集进行噪声过滤后,可选取其部分属性作为直接体数据可视化的域变量。

  2. 线积分卷积

    将二阶张量场视为一个连续场,并给予张量的特征向量、特征值等度量对其进行可视化。

    • 定义与原始张量具有相同拓扑结构的正定度量(该正定度量由原始张量的特征向量与特征值转化而来,因此保证与原始张量具有相同的拓扑结构)
    • 对该度量进行可视化
  3. 基于噪声纹理的方法

    生成具有一定位置和强度分布的点集。

7.4.4 基于拓扑的方法

向量场可视化中的拓扑方法在张量的特征向量场上的一种扩展。

  1. 张量不变量法

    采用一个与张量形状相关的标量场描述目标张量场

  2. 拉格朗日分析法

    将特征向量场视为一个双向向量场,可将向量可视化中采用的拉格朗日相干结构的概念应用于特征向量场

    拉格朗日分析法主要思想:量化相邻的虚拟粒子沿着特征向量场所定义的双向向量场流动的行为差异。

7.4.5 高阶张量场可视化

  1. 图标法

    • 采样高阶张量场
    • 对每个采样点根据当前的高阶张量构建高阶张量图标
  2. 纤维追踪法

    与应用于二阶对称张量的主要区别在于对高阶张量实行张量分解可得到一个或多个方向。当种子点包含两个或两个以上的方向时, 纤维追踪法需要在该种子点处沿着不同方向追踪, 直至满足给定的终止条件。

  3. 纹理法

    将高阶张量场转化为可描述该高阶张量场物理属性的标量场,并将它视为纹理进行可视化

7.5 多变量空间数据场可视化

目的:抽取和表达数据场中多个属性及其相互关系

难点和挑战:克服多变量、类型复合、内在结构复杂且互相交织的数据特征,设计有效的视觉编码辅助用户同步地分析提取和表达这些信息、观察和研究数据属性及其相互之间的关系,发现未知的新特征和新现象

7.5.1 多变量空间数据场的数据分析与表达

  • 基本手段:采用数据分析和特征抽取方法,获得多变量数据场的内部几何信息、统计特征或信息学特征,并结合投影变换和降维去噪去除冗余信息,减少数据量。
  • 主要任务:构建和处理多变量数据场的数据结构,提取可视化以及可视表达的对象,即数据属性和衍生特征、相互之间的关系以及变化趋势等
  • 将处理对象从原始数据空间变换到统计空间,用统计学方法表达原始数据或者抽取的特征,以达到减少数据量,同时保持关键信息、分析变量间关系的目的。

7.5.2 多变量空间数据场的可视化与交互

  • 可视化:主要指基于图形学技术,对多变量数据的绘制着色和最终成像过程。
  • 交互:便于用户对数据进行观察和分析的一系列操作,贯穿整个可视化进程。
  1. 视觉通道与融合

    多变量空间数据场可视化的手段分成两类

    • 用不同的视觉通道映射和编码各个属性及其相互之间的关系和关联
    • 分别可视化各个数据场的数据属性,在进行融合
  2. 交互探索

第8章:时变数据可视化

时变型数据:随时间变化、带有时间属性的数据

  • 以时间轴排列的时间序列数据
  • 不以时间为变量,但具有内在的排列顺序的顺序型数据集

时变型数据可视化方法:

  • 采用静态方式展示数据中记录的内容,不随时间变化,但可采用多角度、数据比较等体现数据随时间变化的趋势和规律
  • 采用动画手法,动态地展示随之间变化的感觉和过程,因而具有更多的表现空间

8.1 时间属性的可视化

对时间属性刻画有三种形式:

  • 线性时间和周期时间
  • 时间点和时间间隔
  • 顺序时间、分支时间和多角度时间
  1. 线性时间和周期时间可视化

  2. 日历时间可视化

  3. 分支和多角度时间可视化

    按照时间组织结构,分类:

    • 线性多角度时间可视化
    • 流状分支时间主线可视化
  4. 时间属性的动态可视化

8.2 多变量时变型数据可视化

8.2.1 基于线表示的可视化

将时变序列中的每个数据采样点连接,原时变序列组成一条在高维空间的线,在低维空间可视化这条线可揭示高维空间的时间序列演化趋势

8.2.2 基于图结构的可视化

8.2.3 时间序列数据的可视化交互

直接可视化大规模的时变型数据难以呈现全部细节,因此需要设计合适的交互方法表现重要的区域。

常用的一种交互手段:从时变型数据中查询特定的时间序列,以便交互地发现特征和趋势。

8.3 流数据可视化

输入数据以一个或多个“连续数据流”的形式到达。

8.3.1 流数据可视化模型

流数据处理并没有一个固定的模型,通常按处理目的和昂发的不同会有不同的模型

8.3.2 流数据处理技术

分类、聚类、频繁模式挖掘、降维等传统数据挖掘算法在流数据中心的改进算法,大数据相关的统计方法、采样算法和哈希算法,以及滑动窗口、数据预测等流数据特有的算法

  1. 窗口技术

    • 滑动窗口:在时间轴上滑动的窗口,挖掘技术的对象限定为窗口内的数据
    • 衰减窗口:将历史数据考虑在内,每个数据项都被赋予一个随时间不断减小的衰减因子,从而达到越历史的数据权重越低的结果
    • 时间:交互技术,通过时间盒框选部分数据进行联合搜索
  2. 时序数据相似性计算

    动态时间扭曲:基于形状的相似性算法

  3. 符号技术

8.3.3 流数据可视化案例

流数据可视化按功能分:

  • 监控性:用滑动窗口固定一个时间区间,把流数据转化为静态数据,数据更新方式可以是刷新,属于局部分析
  • 叠加性(历史型):把新产生的数据可视映射到原来的历史数据可视化结果上,更新方式是渐进式更新,属于全局分析
  1. 系统日志监控流数据

  2. 文本流数据

  3. 并行流计算框架

    流计算强调的是数据流的形式和实时性

非时空数据篇

第9章:层次和网络数据可视化

9.1 层次数据

这种关系主要表现为两类:包含和从属

层次结构可以被抽象成树型结构,它是以分支关系定义的非线性结构

9.1.1 层次数据的可视化

  • 节点-链接:将单个个体绘制成一个节点,节点之间的连线表示个体之间的层次关系。

    代表技术:空间树、圆锥树

  • 空间填充:用空间中的分块区域表示数据中的个体,并用上层区域对下层区域的包围表示彼此之间的层次关系。

    代表技术:树图

  • 混合前两种

9.1.2 节点-链接法

核心问题:如何在屏幕上放置和绘制节点及节点之间的链接关系

布局算法:

  • 纵横轴布局

    自底向上递归计算;对于每个父节点,确保子树已被绘制;采用二维形状的包围盒技术尽可能紧致地包裹子树,并用来指导两棵子树的靠拢;将父节点放在各子树的中心位置

  • 正交布局

    节点放置的时候都按照水平或垂直对齐。

  • 径向布局

    根节点位于圆心,不同层次的节点被放置在半径不同的同心圆上

    扩展:环状径向树、圆锥树

9.1.3 空间填充法

  • 树图法:从根节点出发屏幕空间根据相应的子节点数目被分成多个矩形,矩形的面积大小通常对应节点的属性。每个节点又按照相应节点的子节点递归地进行分割,直到叶节点为止。

    改进:正等分法(放置一个节点又大量子节点时,出现非常细的条状空间)

  • 放射状布局

9.1.4 其他方法

  • 相邻层次图:节点-链接法的空间填充的变种

    采用填充的区域表达节点,相邻节点之间的位置关系则编码了彼此之间的层次关系。

  • 混合可视化方法

    除了在叶节点呈现数据细节外,中间层次的节点由树图法表达。

    缺点:产生的可视化结构相对复杂

9.2 网络数据

9.2.1 网络与图

网络数据:不具备层次结构的关系数据

9.2.2 网络数据可视化

  1. 节点-链接法

    用节点表示对象,用线表示关系的节点-链接布局。

    • 力引导布局:减少布局中边的交叉,尽量保持边的长度一致。

      只能达到局部优化,而不能达到全局优化,并且初始位置对最终优化结果影响较大

      优化思路:减少迭代次数、降低每次迭代的时间复杂度

    • 多维尺度分析布局

      针对高维数据,用降维方法将数据从高维空间降到低维空间,力求保持数据之间的相对位置不变,同时也保持布局效果的美观性

    • 弧长链接图

      采用以为布局方式,即节点沿某个线性轴或环状排列,圆弧表达节点之间的链接关系。

  2. 相邻矩阵布局

    可显著表达节点之间的直接关系,而对间接关系,也就是关系传递性的可视表达比较薄弱

    好处:完全规避边的交叉,

    缺点:关系传递表达不如节点-链接布局明显

  3. 混合布局方法

9.2.3 网络数据的地图隐喻可视化

GMAP:将网络图用地图形式表达

  1. 将网络数据布置与二维空间
  2. 用聚类分析的方法将网络图中的节点归类
  3. 根据各个类别中点的分类情况构造Voronoi图(一个Voronoi图代表地图的一个区域)
  4. 给地图的每个Voronoi区域上色

9.2.4 超图及其可视化

  1. 超图的定义

    超图:起源于离散数学中的集簇,集合的集合。

  2. 超图的可视化

    • 文氏图表达

      基于集合的标识方法,将超图中的超边表示成带颜色的简单闭曲线或封闭区域

      优点:表达清晰直观

      缺点:超边之间会产生重叠,表达的效果随着顶点和超边规模的增加急剧下降

    • 斯坦纳树

      每一条超边都表示成一颗斯坦纳树。

      优点:经济节约,用最少的连线就可以表达超图

      缺点:不够直观,不易识别,且求斯坦纳树是一个N-P难度问题,只有一些启发式算法存在

    • Zykov表示法

      将超图的顶点表示成节点,超边表示成一个曲面片

      优点:非常直观,能在一定程度上应对顶点重复的情况

      缺点:表达规模有限,超边和顶点的数目不能太多

    • 正交法

      正交法边允许垂直弯曲,所有边只能沿x或y两个方向弯曲

    • 二分图

      将顶点和超边均表示成节点,平行放置,在两个部分之间根据超边和顶点的包含关系连线

      优点:简单明了,布局简单,适应规模适中

      缺点:不够直观,需要通过连线来找顶点和超边的对应关系

9.2.5 动态网络数据可视化

9.2.6图可视化的视觉效果

  • 根据信息可视化的信息分级原则,对大规模图进行层次化简化
  • 另一种思路是在尽量不减少原图信息量的前提下,对图进行基于骨架的聚类
  1. 图的拓扑简化

    • 边的提取(最小生成树…)
    • 节点聚类
  2. 图的边绑定

    核心思想:保持信息量的情况下,将图上互相靠近的边捆绑成束,从而达到去繁就简的效果

9.2.7 图可视化的交互

图的拓扑简化和边绑定目的是解决规模较大的图存在视觉混杂问题

  1. 基于视点的交互

    用交互手段来预测和帮助用户在途中切换视点

    方法:

    • 界面平移、缩放旋转
    • 人眼和体感跟踪技术
  2. 基于图元的交互

    对于一个可视化映射元素的交互,如节点的选择、高亮、删除、移动、展开与收缩

  3. 基于图结构的交互

    “焦点+上下文”技术

9.2.8 网络数据可视化挑战

  1. 图的规模
  2. 用户对数据的认知能力和感知能力不尽相同

第10章:文本和文档可视化

10.1 文本可视化释义

  • 文本可视化采用可视表达技术刻画文本和文档,直观地呈现文档中的有效信息
  • 如何辅助用户准确无误地从文本中提取并简洁直观地展示信息

10.1.1 文本信息的层级

  1. 词汇级

    指从一连串的文本文字中提取的语义单元信息

    • 语义单元:由一个或多个字符组成的词元,文本信息的最小单元
    • 可提取的信息:文本涉及的字、词、短语,以及它们在文章内的分布统计、词根词位等相关信息
  2. 词法级

    指基于文本的语言结构对词汇级的语义单元进一步分析和解释而提取的信息

    • 语义单元的语法属性,例如:词性、单复数、词与词之间的相似性,以及地点、时间、日期、人名等实体信息
    • 命名实体识别:语法级信息的提取过程
  3. 语义级

    研究文本整体所表达的语义内容信息和语义关系,是文本的最高层信息

    • 深入分析词汇级和语法级所提取的知识在文本中的含义(如:文本的字词、短语等)
    • 通过文本所传达的信息

10.1.2 文本可视化的研究内容

文本可视化的研究动机:人类理解文本信息的需求

以文本文档的类别:

  • 单文本可视化
  • 文本集合可视化
  • 时序性可视化

以文本信息特征:

  • 文本内容可视化
  • 文本关系可视化
  • 文本多层面信息的可视化

10.1.3 文本可视化流程

  1. 文本信息挖掘

    • 文本数据的预处理
    • 文本特征的抽取
    • 文本特征的度量
  2. 视图绘制

    将文本挖掘所提炼的信息变换为直观的可视视图

  3. 人机交互

10.2 文本信息分析基础

10.2.1 分词技术和词干提取

常用语文本数据的预处理

10.2.2 向量空间模型

指利用向量符号对文本进行度量的代数模型,指代一系列向量空间的定义、生成、度量和应用的方法与技术,常用于自然语言处理、信息检索等领域

  1. 词袋模型

    • 构造文本向量的常见方法,用来提取词汇级文本信息

    • 词袋模型将一个文档的内容总结为在由关键词组成的集合上加权分布向量

  2. 文本的相似性度量

  3. TF-IDF(权重分配模型)

    用以评估一个单词或字对于一个文档集或一个语料库中的其中一份文档的重要程度

    核心思想:字词对于某个文档的重要性随着它在这个文档中出现的次数成正相关增加,但同时会随着它在文档集合中出现的频率而负相关下降

10.2.3 主题抽取

  1. 基于矩阵分解的非概念模型

    • 词项-文档矩阵被投影到K维空间中,其中每个维度代表一个主题
    • 每个文档用K个主题的线性组合表达而成
  2. 基于贝叶斯的概率模型

    • 主题被看成多个词项的概率分布,文档理解为多个主题的组合而产生
    • 一个文档的内容是在主题的概率性分布的基础上,从主题的词项分布中抽取词条而构成

10.3 文本内容可视化

10.3.1 基于关键词的文本内容可视化

  • 标签云

  • 文档散

    不仅采用关键词可视化文本的内容,还借鉴这些关键词汇在人类词汇中的关系来布局关键词

  • 文档卡片

    采用文章的关键图片和关键词信息表达文本的内容

    将每个文档的关键词和关键图片紧凑地布局在一张卡片上,将其可视化为一张“扑克牌”,这样便于用户在不同尺寸的设备中查看和对比每个文档的信息

10.3.2 时序性的文本内容可视化

  1. 主题河流

    采用河流作为可视原语来编码文档集合中的主题信息,将主题隐喻为时间上不断延续的河流

  2. 历史流

    初衷:可视地表达每个版本的维护者他们所做的修改

10.3.3 文本特征的分布模式可视化

  • 文本弧

    文档的句子按照文字的组织顺序有序地分布在螺线上。螺线开头是文章的首句,末尾是文章的结尾句子,画布中间填充的是文档中出现的单词,字体和颜色饱和度表示对应的词频。

    全文各处出现频繁的词汇靠近画布中心,而局部频繁出现的单词靠近其对应的的螺线区域

  • 文献指纹:了解某一特征在全文中的分布规律

  • 文本特征透镜

10.3.4 情感分析可视化

10.3.5 文档信息检索可视化

10.3.6 软件可视化

10.4 文本关系可视化

10.4.1 基于图的文本可视化

  • 单词树

    树的根节点是用户感兴趣的一个词,子节点时原文中搭配在父节点后面的词或短语。

    字体大小反映词或短语在文中出现的频率

  • 短语网络

    节点表示语义单元,如词或短语;

    边表示用户指定的关系;

    箭头表示关系的有向性

10.4.2 文档集合关系可视化

  • 星系视图

    采用仿生的方法可视表达文档间的相似性

    每个文档被看成星系中一颗星星, 通过投影的方法将所有文档按照其主题的相似性投影为二维平面的点集, 点之间的二维距离与其主题相似性成正比, 即主题越相似的文本所对应的点位置越相近

  • 主题地貌

    在其所计算的文档投影位置的基础上, 采用等高线的方式可视表达文档集合中相似文档的分布情况

  • 基于范例的大文本集合投影

    先将少量样例文本投影到二维空间, 再根据用户选取的样例, 后续选择一些相关的文本投影在二维空间中

10.5 文本多层面信息的可视表达

10.6 总结

  1. 文本信息提取技术
  2. 可视表达

第11章 跨媒体数据可视化

11.1 图像

11.1.1 图像网格

根据图像的原信息对图像按二维数组形式排列, 形成一张更大的图像

11.1.2 时空采样

对图像或图像序列的部分内容或区域进行时域或空间域的重采样并呈现的方法统称为基于时空采样的图像可视化