论文中举了用STEAMIT来监控新闻的例子。论文作者采用了从2010年7月19日到9月18日230篇纽约时报有关奥巴马的新闻。每篇新闻本身就提供了些关键词,作者就直接使用这些关键词。这些文章根据时间,连续的输入系统;而系统实时的更新关键词表格,并对输入文档计算相似性,动态调整文档所对应的点的 位置。

image courtesy of Jamal Alsakran, et al.

上图(A)显示了截止到8月13日,一共有136条新闻。而其中“政治和政府”,“国际关系”,“国防军事”和“恐怖主义”出现的频率很高。这些词可以认为是热点,需要跟踪,用户可以把对应的点着上特别的颜色。

在监控过程中,如果用户特别关心“国际关系”,用户可以提高这个关键词的权重,并把相应的点着上红色。然后系统进行更新,重新计算点的位置,图(B)是更新结果。相对于图 (A),我们可以看到红色的点,在图(B)中靠的更近了。这些红色的点包括了“中国”,“恐怖主义”和“阿富汗战争”等子话题。

在这些子话题中,用户特别关心“恐怖主义”和“阿富汗战争”。用户可以点击和选择与“阿富汗战争”相关的新闻,并把它们放到一个新的“战争”类别里,并在这 些点的外面涂上粉色的圈圈(图(B-2)的样子)。同样,用户可以选择与“恐怖主义”相关的新闻,并用桔红色的圈圈涂在点的外面(图(B-3)的样子)。 然后系统继续输入新闻,并进行监控。图(C)显示了9月18日230篇新闻全都输入后的可视化结果。我们可以看到原来图(B-3)所对应的集合变大了好 多。而图(C-4)所对应的集合是一个新冒出来的话题,因为从关键词分析结果来看,它跟其他组都不像,这样用户可以点击这个点所对应的文章,看看具体内 容。

文章还举了另外一个关于跟踪自然科学基金的例子,有兴趣的同学可以读一下。总的来说,小编觉得用模拟的方法来动态显示文档的聚类变化,比较新颖:虽然这个方法的计算量很大,但是如果用了多个GPU,对于实时处理海量数据,并且进行可视化,还是可行的。

© 2011, 视物 | 致知. All rights reserved.

Related Posts:

  1. 问题:
    每个文章的关键字是需要人为指定的么?还是它能自动知道文章的相似度?

    • 系统提供一张关键词表。用户可以更新这张表格,而且可以制定每个关键词的权重。但是,论文并没有说初始的关键词表从哪里来。系统将关键词权重结合到cosine similarity方法来比较文章的相似度。具体的可以看论文中的公式(7)。