程序员眼中的《全唐诗》,竟然是这样的
盐城市明达高级中学 http://www.ycmdzx.cn
2022-05-18 09:33
一部《全唐诗》里有四万多首诗,也许穷尽我们一生都无法全部读完,不过,在这个大数据时代,有人发明了《全唐诗》的另类读法。即用数据分析的角度来看《全唐诗》。
对《全唐诗》采取逐字切分的处理方式,同时去掉一些常见的虚词,如“之乎者也”。经过文本预处理后,就可以进行文本挖掘中最常规的分析——字频统计。出人意料的是,《全唐诗》中出现最多的不是风花雪月,而是“人”。

这些高频字从侧面反映出全唐诗中描写景物、寄情山水的诗句占比很大,透露出平静、清新和闲适之感。汉语的语素大都是由单音节(字)表示,即所谓的“一音一义”。当这些单音节语素,能够独立应用的话,就是词。古汉语中存在着许多单音节词,这也就是文言文翻译中要经常把一个字翻译成现代汉语中双音节词的原因。有些单音节语素,不能够独立使用,就不是词,只能够是语素,如“第~“、”踌~“、”-~们“。唐诗中的常用双字词都有哪些呢?从上面的双词探测结果中,可以发现如下6类成词规律:(1)复合式(A+B等于C):由两个字组成,这两个字分别代表意义,组成双音节的词,这类词出现的频次最多。比如,弟兄、砧杵、纪纲、捐躯、巡狩、犬吠。(2)重叠式(AA等于A): 琅琅、肃肃、忻忻、灼灼。(3)叠音(AA不等于A):琅琅(单独拆开不能组其他词)、的的(拆开后的单字的词义不同)等。(4)双声(声母相同): 踌躇(声母都是c,分开各自无法组词)、参差(声母都是c)、缅邈(声母都是m)。(5)叠韵(韵母相同):噫嘻(韵母是i)、缭绕(韵母是ao)、妖娆(韵母是ao)等。选取高频字的TOP148抽取共现关系,可以看到,上述的语义网络可以分为3个簇群,即橙系、紫系和绿系,TOP148高频字中,字体清晰可见字的近40个。圆圈的大小表示该字在语义网络中的影响力大小,在诗句中,这些字常以“字眼”的形式呈现,也就是诗文中精要的字。紫系:游、树、雨、回、笑、言、幽、清、白、野、行等其中,根据字的构成来看,绿系簇群中的字大多跟送别(好友)有关。分析全唐诗中所表达出来的内在境界,也就是内在情感,为了丰富分析维度,采用7种细颗粒的情绪分类,即悲、惧、乐、怒、思、喜、忧。根据上面获取到的字向量,经过人工遴选后,得到可以用于训练的“情绪字典”,根据诗歌中常见的主题类别,七种情绪类别分为:出乎很多人的意料,代表大唐气象的唐诗应该以积极昂扬的情绪为主,可最后却是“悲”“思”“忧”这样的情绪占据主流,而 “喜”“乐”这样的情绪却占据末流!
从上面呈现的TOP10高频字和象限区块(左上角“唐诗”、右上角“宋词”和正下方“元曲”)来看,唐诗、宋词、元曲中出现的独有高频字依次是:- 唐诗:唯、馀、始、鸟、含、尔、昔、兹、忽、栖、川、旌、戎、秦…
- 宋词:阑、沈、匆、帘、浓、约、淡、觞、蕊、屏、凝、笙、瑶、柔…
- 元曲:哥、俺、咱、孩、姐、吃、哩、科、厮、拿、你、叫、呀、呵…
从上面的关键字来看,唐诗、宋词和元曲各自的特征很鲜明:- 唐诗:用字清澹高华、含蓄,诗味较浓,寄情山水和金戈铁马的特征明显。
- 宋词:所用的字体现出婉约、宛转柔美,表现的多是儿女情长,生活点滴。
- 元曲:所用的字生活气息浓重,通俗易懂、接地气、诙谐、洒脱和率真。
但它总归是人类前进的方向,用大数据的角度看《全唐诗》,给我们提供了无限的可能。
读完你会发现,文科与理科,在诗的世界里并没有那么泾渭分明。
对审美的追求,对诗性的渴望,是每一个人心中固有的基因。
【声明】图文来源于中华诗文学习,版权归原作者,如有侵权,请联系小编删除