作为一名文学青年,在一般场合下,随口说出几个生僻但听上去又高深莫测的作家名字,或者信手捻来文学巨著里的几段佳句,往往能显示自己“洋葱白学”的高雅情操,引来路人小MM的青睐。但是,如果不巧的话,旁边有位仁兄对文学也略有了解,并且想跟你讨教讨教,哪可怎么办?怎么能把其他文学青年比下去?怎样才能显出我对文学更高雅的品味?这时候,如果能站在对文学更高层次的理解,高屋建瓴般的来段 Rhetorical analysis,那就有可能把旁边那个不知趣的小子给镇住。“啊?你不知道什么是 Rhetorical analysis?太土了吧!让我给你讲讲吧,知道Comedy, Masque, Tragdey, 或者 Shakespeare 等等流派量化的区别吗?知道那个流派更喜欢用第一人称吗?”

今年的Eurovis还有大概一个月就要召开了,部分论文已经在网上公开。今天小编选了由M. Correll等人作的题为Exploring Collections of Tagged Text for Literary Scholarship的论文。这篇论文介绍了一个辅助文学分析的可视化工具。文学分析(Rhetorical analysis)并不是简单的研究具体的语法,或者写作手法,也不是分析具体的某人某篇作品。它的研究对象是所有的文学作品,在宏观上面试图对它们进行分类,在微观方面试图总结出每一类作品在语言上的特性,比如单词的选择,名词的形式,发言的选择,甚至句子的长短,语气语调,等等。而目前的研究方法大概是分以下几个步骤:首先是收集文学作品,并且对它们进行分类;对于每一类作品的具体文章作分词处理,每个分词赋予不同的类别 /标签 (tag),这些tag基本上就对应于前面提到的特性。这样每篇作品就可以表示为tag的组合(即不同特性的组合);如果我们把每个tag当作一个维度,那么就可以构造一个高维空间,而每篇作品就是这个高维空间里的一个点;然后采用Principal Component Analysis (PCA)的方法,将高维空间投影到2维空间,然后在这2维空间里对这些点进行分析,比如采用聚类分析(clustering)来找到文学作品中的共性和一些异常(outlier)。目前这个流程很大部分还是要靠人工完成,所以很难处理文学作品非常多的情况。

M. Correll等针对文学分析的过程开发了一个系统,通过可视化的方法,由计算机来辅助语言学家对大规模数据的分析。上图就是这个系统的主要界面。界面的第一部分,列出了不同的文学分类,比如喜剧,历史,悲剧,莎士比亚剧等等。对于每一个类可以设定在分析中的权重。界面的第二部分,用颜色表示当前文学作品采样中,不同类别的分布情况。比如我们可以看出喜剧所对应的部分最多,而悲剧第二多。当然还可以显示年份,作者等等的分布情况。界面的第三部分,显示了一系列的点。这些点是通过PCA在二维上的投影,每个点代表一篇作品,颜色代表其类别。界面的第四部分,是不同tag的统计信息。每个小竖条对应于一个tag, 颜色代表该tag在不同类别中出现的分布情况。而点击每个小竖条可以显示具体的直方图 ,如下图所示。

这个系统通过这些可视化的组合来辅助文学分析。比如在下图中右边,我们可以到Shakespeare 类的作品所对应的青颜色的点,通过PCA投影基本上聚类在一块,说明这类作品比较具有共性。而Masque类的作品的投影比较分散,说明这类作品,相对于其他类作品,共性不是很明显。而在tag的直方图里,我们却可以观察到在红线圈的范围内,Masque类的作品所对应的桔红色的点聚集在一块,说明对于这两种tag所对应的语言特性第一人称和 SenseObject,第一人称在这类作品中用的特别少,而 SenseObject 用的特别多。语言学家进一步分析,认为这是因为Masque类的作品中,人物对话采用很多长的,比较正式的语言,显得比较呆板。而这个现象是通过可视化才比较容易观察到的。

这个系统通过这些可视化的组合来辅助文学分析。比如在下图中右边,我们可以到Shakespeare 类的作品所对应的青颜色的点,通过PCA投影基本上聚类在一块,说明这类作品比较具有共性。而Masque类的作品的投影比较分散,说明这类作品,相对于其他类作品,共性不是很明显。而在tag的直方图里,我们却可以观察到在红线圈的范围内,Masque类的作品所对应的桔红色的点聚集在一块,说明对于这两种tag所对应的语言特性第一人称和 SenseObject,第一人称在这类作品中用的特别少,而 SenseObject 用的特别多。语言学家进一步分析,认为这是因为Masque类的作品中,人物对话采用很多长的,比较正式的语言,显得比较呆板。而这个现象是通过可视化才比较容易观察到的。

© 2011, 视物 | 致知. All rights reserved.

Related Posts: