文 本情感分析(sentiment analysis)是一项非常有意思的研究,它试图通过分析文本,来挖掘作者所表达的主观意识。听上去是不是很学术?但是随着网络应用,特别是社交网络的 发展,这项研究在实际中的应用越来越广泛。比如对于某个热点的海量网评中,这项技术能够帮助我们快速的提取出民意的基本组成。

openbible.info对圣经所做的情感分析以及可视化,可能是对这项技术的一个很形象的演示。作者使用Viralheat Sentiment Analysis API,对圣经中的每一小节做情感分析。其中作者采用了一个相对简单的褒贬分析,对于每一小节按照其所表达的贬义(反面)或者褒义(正面)程度,计算一个0到1之间的数。

比如,启示录(Revelation)21章27节:

 

凡 不洁净的,并那行可憎与虚谎之事的,总不得进那城。只有名字写在羔羊生命册上的才得进 去。(And there shall in no wise enter into it any thing that defileth, neither whatsoever worketh abomination, or maketh a lie: but they which are written in the Lamb’s book of life.)

这句话的得分为0.068。

而启示录(Revelation)22章27节:

愿主耶稣的恩惠,常与众圣徒同在。阿们。(The grace of our Lord Jesus Christ be with you all. Amen.)

得分为0.993。

对于整部圣经(旧约+新约)的分析结果,可以在这里下 载。有了这些数据以后,作者先将每一卷可视化成直方图(histogram)的形式:如果分数超过0.5分,为正面的叙述,用黑色表示;如果分数小于 0.5分,则为负面的叙述,用红色表示。而直方图高度是正反的强度。这样对于每一卷,我们可以看出它的基调。比如,从下面的图我们不难发现,士师记 (Judges)基本为负面论述,而诗篇(Psalms)基本为正面。(原图可以从这里下载)。

为了便于读者阅读比较,同时也体现圣经各卷的统一性,作者把上面的每一列组织成圆形的可视化形式,如下图所示。同学们是不是觉得这样的组织更好呢?或者还能有什么改进吗?(原图可以从这里下载)。

不管目前文本情感分析软件的有效性,这个例子通过分析圣经这样厚厚的书籍,确实很形象的向我们展示了这个研究的实际意义。如果同学们知道有相关的中文情感分析软件,也可以试试能不能做出一些有趣的分析和可视化。

© 2011, 视物 | 致知. All rights reserved.

Related Posts: