基于字母组合的语言中,一些单词中往往会有个别不发音的字母。比如,英文中的One中的e就不发音。将这些不发音的字母找出来,从计算机的角度而言,并不难:无非是建个数据库,然后对输入的文章扫描,对于每个单词,通过数据查询,找出这样的字母。英语的总词汇量,对计算机而言当然是小菜一碟。即使是考虑其他语言,比如法语,德语,计算量也不大。

但是,CIID对这些结果所做的可视化却有点意思。在可视化里,他们通过加亮(红色),去除,归类等操作显示了这些字母的有趣的信息。比如,如果把这些字母去掉,我们是否还能通顺的朗读一篇文章呢?再比如,上面的图清楚的显示了德语,法语,英语中废话的比例。如果在德语中去掉这些不发音的字母,我们可以减少近三分之一的磁盘空间啊。有兴趣的同学可以看看他们完整的视频。



© 2013, 视物 | 致知. All rights reserved.

Related Posts:

  • No Related Posts