数字人文视角下的唐代边塞诗文化挖掘研究数据集

空间人文与场所计算实验室(SHAPC lab)已经在地图书知识库正式发布“数字人文视角下的唐代边塞诗文化挖掘研究数据集”。地址:https://www.ditushu.com/book/144/

该数据集由天津大学何捷教授团队制作并发布。何捷教授任哈尔滨工业大学(深圳)建筑学院城乡规划系教授。此前曾任天津大学建筑学院风景园林系副教授、天津大学数字化设计研究所副所长、香港中文大学太空与地球信息科学研究所副研究员、香港中文大学“高级环境规划技术理学硕士”课程副主任等职。所带领的“空间人文与场所计算”团队追求超越学科边界的知识前沿探索性研究、以及新途径和新方法回归建筑、城市与景观专业问题的创见。

数据集制作团队包括天津大学2019级风景园林硕士研究生郭佳欣、天津大学2020级风景园林学硕士研究生沈孙乐、天津大学2020级风景园林学硕士研究生张舒、天津大学2020级风景园林学硕士研究生袁诗雨、天津大学2020级风景园林硕士研究生杨明。

数据来源与获取:全唐诗文本集选用《全唐诗》版本出自 “文学 100”网站——根据劉昭麟等的对比,该网站提供的公共可获取电子版本是已知质量最好的,共 900 卷,42213首。确定版本后,将数据按照“ID、卷号、题目、作者、诗文内容等信息”进行结构化处理。结合陈铁民等人考证出的诗歌文本集 600 余首作为本次机器筛选的训练集,使用机器学习文本分类算法决策树(Decision Tree)、支持向量机(Support Vector Machine,SVM)、朴素贝叶斯(Naïve Bayes)等方法共得到 2000 余首测试集,选取了三种方法都判断为“是“的边塞诗文本集 1223 首作为最终的核心边塞诗歌文本集。

诗歌的时间标注:根据诗人所处年代定位边塞诗的时期,粗分为初(唐高祖武德元年—唐玄宗先天元年,618—712)、盛(唐玄宗开元元年—唐代宗永泰二年,713—766)、中(唐代宗永泰二年—唐文宗太和九年 766—835)、晚(唐文宗—唐哀帝 836—907)四期。诗人的生卒年。依据 CBDB 相关诗人[41]数据,爬取诗人的生卒年,并粗估诗人活跃年份。

文本分类:在统计了 600 余首考证确定为边塞诗的诗歌文本集后,采用了无监督的隐马尔可夫模型(kenlm+HMM)和进一步干预对诗歌文本集进行了分词预处理。很多自然语言问题可以通过对文字进行标注,把任务转化为序列顺序优化问题从而进行处理。有了语料标注的数据后,可以利用隐式马尔可夫模型(HMM)等进行分词。隐马尔可夫模型是一个比较简易的分词模型,通过使用各个状态的转移概率与各个字对应状态的概率分布即字的标签概率,来进行预测(无监督分词是通过计算出 N-gram 语言模型,即以统计得到字词组合的频率,再反推出字的标签概率)。这种方法总结出了语料中用语的习惯,然后基于用词习惯进行分词,常常出现在一起的字符就会被认为是同一个词,但是中文尤其古代诗歌语言的使用有时并不完全符合统计规律,会存在不符合规律的情况,但在无法取得大规模标注语料的情况下,无监督分词也不失为一种可用的方法。(例如“花下 | 忘归 | 因 | 美景 , 尊前 | 劝酒 | 是 | 春风”,其中“花下”、 “尊前”等可能不是一个词组的两个字也被组合在了一起)。为保证结果的准确性与可靠性,故而后续又对所有诗歌分词结果进行了人工纠正与调整。

数字人文视角下的唐代边塞诗文化挖掘研究数据集,依托于国家自然科学基金面上项目(项目负责人:何捷): 《全唐诗》边塞诗中景观认知的数字化信息挖掘和平台研究(51978448), 2020-2023进行开展。依托该课题项目及数据发表多篇研究论文及相关学术笔记:

1.马昭仪,何捷*,刘帅帅. 中国古典叙事文学的时空叙事数字模型研究——以《李娃传》为例.地球信息科学学报,2020, 22(5): 967-977 (DOI: 10.12082/dqxxkx.2020)

2.郭佳欣,马昭仪,肖天意, 何捷*.《长安十二时辰》对长安城市空间的当代重构——一种文学制图的视角.数字人文研究, 2021, (2): 9-20

3.Ma Z, He J*, Liu S. Representation of the spatio–temporal narrative of The Tale of Li Wa李娃传. PLoS ONE, 2020, 15(4): e0231529 (DOI: 10.1371/journal.pone.0231529)

4.数字人文视角下的唐代边塞诗文化挖掘研究(https://mp.weixin.qq.com/s/49t0gycWjn9XGSFhJHFpsw)

资源下载: