可视化Task1-论文阅读

Nov 22, 2019

ST-MVL 遥感时序数据插值

Overview

Spatio-temporal multiview-based learning method 基于时空多视图的学习方法

考虑:

  1. 同一时序数据中不同时间戳的读数之间的时间相关性
  2. 不同时序数据之间的空间相关性

结合了:

  1. 由反距离加权插值和简单指数平滑组成的经验统计模型
  2. 特定的数据驱动算法

NMF 非负矩阵分解

block missing是极端情况

ST-MVL的核心就是四种算法结合,如下图

ST-MVL

SES 简单的指数平滑,根据同一传感器的其他时间戳的读数来做估计,属于global temporal view

IDW 反距离加权插值,根据空间领域的读数来做估计,属于global spatial view

UCF 基于用户(指的是传感器),根据传感器最近的读数和空间领域中相近的传感器的读数之间的相似性来估计,属于local spatial view

ICF 基于不同时间戳的最近读数之间的相似性来做估计,属于local temporal view

IDW 反距离加权插值

IDW

di是sensor si和目标sensor之间的距离,α是自定义的幂权重

the First Law of Geography: Everything is related to everything else, but near things are more related than distant things (距离越近越相关)

SES 指数平滑

SES

tj是目标读数和当前读数之间的时间间隔,β是自定义的(0,1)区间内的平滑参数

时间越近越相关

UCF user-based collaborative filtering

建立一个local data matrix,大小为N*ω(N为sensor数量,ω是自定的size,筛出前后的时间戳)

![local data matrix](local data matrix.png)

于是sensor之间的相似度可以这样定义:(NT是两个sensor都有读数的时间戳个数)

sim

然后就可以估计:

UCF

ICF item-based collaborative filtering

同样的local data matrix,算时间戳之间的相似度(NS是两个时间戳都有读书的sensor个数)

simt

然后就可以估计:

ICF

Multiview Learing

multiview

单变量时序数据插值(Visually & statistically guided)

整体思想是用某种估算方法对缺失值进行插值,然后通过可视化界面来给予视觉上的和统计上的反馈,让人可以交互式地调整插值结果。

cycle plot 周期图,x轴每增加一个步长,都会循环往复出现一组值

Fig.1中,(a)图就是以年份为横轴,每年都有12个月的取值。(b)图以月份为横轴,每月都有14年的取值

插值方法参考:

  1. N. Horton and K. Kleinman. Much ado about nothing: A comparison
    of missing data methods and software to fit incomplete data regression
    models. The American Statistician, 61(1):79–90, 2007.

  2. S. van Burren. Flexible Imputation of Missing Data. Chapman and
    Hall/CRC, Boca Raton, USA, 2012.

当悬停/选择一个视图中的点时,相应的点将在另一个视图中高亮显示。悬停/选择表示月平均值的周期图中的水平条将在线性时间序列视图中突出显示此部分季节的所有点。

主要是提供一种可视化的方式,能够人为控制插值的效果,并且很直观。

多变量时序数据插值(可视化交互)

PP data pre-processing 数据预处理

MVTS multivariate time series data 多变量时序数据

值域的维度使得MVTS特别难以处理、可视化和分析。随着维度的增加,分析员很难评估和比较例程对单个维度的影响。

数据预处理可以主要分类为data cleansing & data reduction

data cleansing (data wrangling)

如何定义clean data?从问题域到决策域的投射。

关于缺失值的检测和处理:线性和自适应插值,回归。

关于异常值的处理:降噪

data reduction

主要是采样和过滤。根据预定标准减少不相关信息,只保留相关有用信息。

关于多变量时序数据的视觉分析

  1. small multiples 将单个维度并列到具有共享x轴(时间)的图表列表,垂直显示空间通常限制可以同时显示的维度数
  2. shared-space 使用堆叠的方法。适用于y轴跨度较小的情景。将高维数据降维。
  3. 将不确定性描述为MVTS的每个维度的附加维度

approach

主要是提供一个可视化界面,可以自主创建PP pipelines for MVTS。

fig.3 左边是输入处理,右边是输出结果,并列显示了MVTS的七个维度的并列和降维的视觉表示。三种颜色(蓝色灰色橙色)是三种不同参数化的视觉比较。最下面的box plot 是不确定性的可视化
$$
T_{C} →Creation.创造可视化界面,执行pipeline。\
T_{R} →Routine.单个Routine的效果评估。\
T_{P} →Parameters.替换参数带来的影响。\
T_{D} →Dimensions.输出不同维度的可分析。\
T_{U} →Uncertainty.关于不确定度。\
T_{O} →Overview.整个pipeline中的Routine效果评估。\
$$

T_{R}

同时显示输入和输出(Fig4.A)要有足够的显示空间

大型单一显示器中多个维度的叠加(Fig4.B) 编码各个维度的可区分颜色的数量会限制

值域的归一化:维度缩减

Ours 并列显示,这样不需要用颜色区分维度,可以保留用于区分参数比较。还用了降维(?