多元数据是最常见的数据类型。人们经常都要作出一系列的决定,比如吃什么,买什么新手机,去哪里旅游,住什么旅馆,等等。这类决策往往是基于多元数据的分析:食物中热量有多高,碳水化合物多少,是否含有反式脂肪,三聚氰胺等添加剂等;相机的价格,像素多少,光圈大小,焦距范围,能否红外拍摄,等等。多元数据的分析还能帮助我们发现一些数据间的联系,并进行预测。

对于简单的多元数据,最常见的可视化方法是散点图(scatterplot)。比如,对于二维数据,通常的方法就把它们直接画成二维坐标上的一系列点,从而可以看出数据变化趋势。对于更高维的数据,一种方法是把数据的每种属性用不同的图形,颜色,纹理等,表示在二维坐标上。比如下面的图是由www.gapminder.org生成的,用来显示了世界上国家的财富和人均寿命的关系。横轴是人均收入,纵轴是平均寿命,每个国家表示一个圆,圆的大小表示该国的人口,圆的颜色对应于所在的区域。这样一张图表达了一个国家的4个属性。左边的图是基于1980年的数据,而右边的图是基于2009年的数据。图中那个大大的红圆就是我们中国,我们可以很直观的看出这30年中国的发展还是很给力!网站上还能生成动画,演示各个圆的位置变换,像中国那么大的圆还能动那么快,也是独一无二的。

对于有更多属性的数据,用上面的方法就往往不能显示了。常见的方法是用散点图矩阵(scatterplot matrix),如果数据有N维(N个属性),所有的属性两两组合就生成N x N个二维散点图。把这些图排列成N x N的矩阵。这样可以观察任意两个属性间的关系。比如下面这张图就显示了汽车的主要属性间的散点图【1】。其中MPG代表了汽车的油耗(每加仑油能开的旅程),从图里我们看出,发动机马力越大MPG越小,车越重MPG越小,年龄越大MPG越小,等等。

【1】M. O. Ward. Xmdvtool: Integrating multiple methods for visualizing multivariate data. In Proceedings of IEEE Conference on Visualization, 1994.

© 2010, 视物 | 致知. All rights reserved.

Related Posts: