采用图表的形式,媒体往往能够向读者更有效的传递信息。但是如果使用不当,传递了错误的信息,就会误导读者。华尔街日报最近关于奥巴马税务改革的评论文章用了下面这个柱状图来告诉读者,每年家庭收入10万到20万的中产阶级才是占全国收入最多的部分,要解决财务问题,应该拿他们开刀。
明眼人一看就知道,这个图完全歪曲了数据。X轴每一个范围大小很不一致。收入100K-200K的人数众多,自然总收入就高了。而且收入的分布一般接近Power Law。也就是说,收入越高,同收入的人就越少,收入差距就拉的越大。在年收入一百万以上再分区间完全没有意义,因为那些区间里的人数太少了。这个图表的原始数据来自美国税务局。

Kevin Drum改进了这个柱状图。 他把年收入20万以上都归在了一起。我们可以看到年收入20万以上的才拥有大量的社会财富。

我们觉得Kevin的图表也是有问题的。为什么要定20万这个档次呢?按收入分阶层的标准方法是用分位数(Quantile)。如果我们以20%为一个区间的话,应该比较收入最低的20%人口,20-40%,40-60%,60-80%以及80-100%的家庭总收入。下面是我们制作的柱状图。由于原始数据已经在一定程度上进行了累加,我们无法准确的细分到每20%一个区间,只能选用近似的区间。
我们的图表显示最贫穷的20%人口的总收入只有0.13万亿。如果我们说中产阶级是67%-80%的人群,他们的收入只有0.68万亿,根本不是最多的。而收入最高的人群只占总人口的4.8%。他们的总收入才是最高的,高达2万亿。

对于一个可视化和图表,我们常常着眼于易读性和美观。其实最重要的始终是忠实的传递数据中的信息。绝对不能歪曲数据。

© 2011, 视物 | 致知. All rights reserved.

Related Posts: