散点图可以很好的显示少量属性的数据。但是,即使用散点图矩阵也无法解决属性更多的情况,而且每个小图只能显示2个属性间的联系,多个属性间的关系并不是很 直观。这种局限性主要来自将数据投影在了二维直角坐标系上。人们提出一系列的方法来解决这个局限性,而其中最著名的是1981年Alfred Inselberg 提出的平行坐标系(Parallel Coordinates)。这种方法把各个属性表示成一系列的平行的轴,组成一个平行坐标系,每条数据就表示成这个坐标系里的一条直线。比如我们有这样一 组数据

可以方便的表示成这样的平行坐标


平行坐标系的优势在于发现大规模数据间的属性联系。比如再回到前面的汽车的数据,用平行坐标可以表示成【1】
多个属性间的联系比散点图要清晰。比如可以清楚看出来Cylinder多的车,MPG相对小,但是马力大;Cylinder小的车,MPG相对大,但是马力 小。在平行坐标里,我们还可以方便的进行交互式删选数据,方便观察,比如下面的图,我们可以看一下,Cylinders多,MPG小,马力大的车的其他属性怎么样。
当数据过多的时候,平行坐标系里的线就会很多,数据间的联系就看不清楚了,就像下面的左图。一种解决方法是把线画成半透明,这样主要的线的趋势就会随着线的数目的增加而清晰,像下面的右图【2】。当数据很大的时候,主要的趋势的分析通常是数据的分析的第一步。

再回到我们前面第一个例子,虽然看上去学历和收入成反比,但是如果我们有更多的数据,像汽车的例子一样,平行坐标也可以给我们更清楚显示收入和学历,年龄等等的关系,所以还在读高学位的朋友先不要灰心啊。

【1】M. O. Ward. Xmdvtool: Integrating multiple methods for visualizing multivariate data. In Proceedings of IEEE Conference on Visualization, 1994.
【2】 Chad Jones, et al. An Integrated Exploration Approach to Visualizing Multivariate Particle Data. Computing in Science & Engineering, Volume 10, Number 4, July/August, 2008, pp. 20-29

© 2010, 视物 | 致知. All rights reserved.

Related Posts: