科学爱好者在人们普通的印象中应该是像生活大爆炸里的那几个Geek男,平时爱好关注科学技术的消息,连娱乐爱好都是科幻读物,电子游戏这类的。这不,bitly网站的首席科学家Hilary Mason对这些科学爱好者在网上冲浪时关注的话题产生了兴趣。她跟踪了一些用户在网页上点击链接的数据,并把它做成了一个简单的网络连线图的可视化。数据的来源是这样的,她监视了bitly网站上关于科学主题的600个网页,她追踪了用户在浏览完这600个网页后紧接着一下浏览的网页。她一共记录了这样6000个下一个网页,并把这些网页的关键词提取出来。这样她就建立起来了根据次序的一一对应的关联。她把这些关联根据用户来计数,以两天内的访问量作为每个关联的权重。这样她就有了一个图数据。然后把图可视化就非常自然了。她采用线的宽度和色彩作为权重的表示,信息表示虽然有重复,但是却加深了读者的印象。

从上面的可视化看到,科技和健康,教育等关键词关联紧密,这也是意料之中的。不过令人大跌眼镜的时,居然科技和时尚的联系也很紧密。不过这个实验的数据有一点的偏差性,因为一般用户会从当前阅览的网页上的链接中点击进入下一个阅览的链接,所以这些关联性有时候是被网页中的链接所决定而不是读者本身的决定。如果样本能再大一点,也许这类偏差的影响会被减小。

© 2011, 视物 | 致知. All rights reserved.

Related Posts:

  1. “如果样本能再大一点,也许这类偏差的影响会被减小。”
    我觉得好像样本很大的时候,仍然是当前页面的hyperlink会对下一个浏览页面产生固定比例的影响。