ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2023
2
2017
1

按主题分类

情报学
3

按作者

按机构

当前资源共 3条

隐藏摘要

点击量

时间

下载量

您选择的条件: 南京师范大学文学院南京 210097

1. ChinaXiv:202304.00421
下载全文

基于词和实体标注的古籍数字人文知识库的构建与应用——以《资治通鉴·周秦汉纪》为例

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

常博林万晨李斌陈欣雨冯敏萱王东波

摘要： [目的/意义] 探索能够实现基于词和实体的检索与知识挖掘的人文知识库构建方法。[方法/过程] 以《资治通鉴·周秦汉纪》为例，对68卷60万字的文本自动分词与词性标注之后，人工标注文本中的人物、地点GIS、时间等实体信息，实现基于词和实体的全文检索和地图检索系统；利用同现信息，统计出人物关系与人物游历信息；进而使用TF-IDF方法，通过时间序列分析，挖掘出多事之秋、风云人物、风云之地等结果。[结果/结论] 基于词和实体的深度信息标注，能够解决缺乏词界、同名异指和异名同指的检索难题，更可以为古籍多角度的知识发掘与知识服务提供基础支撑。

点击量 292 下载量 129 评论 0
2. ChinaXiv:202304.00710
下载全文

数字人文下的典籍深度学习实体自动识别模型构建及应用研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

杜悦王东波江川徐润华李斌许超徐晨飞

摘要： [目的/意义] 典籍是我国传统文化、思想和智慧的载体，结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别，对于后续应用研究具有重要意义。[方法/过程] 基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库，分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型，从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论] 在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%，证实了深度学习应用于大规模文本数据集的可行性。

点击量 282 下载量 154 评论 0
3. ChinaXiv:201711.01929
下载全文

基于CRFs 和词典信息的中古汉语自动分词

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

王晓玉李斌

摘要：【目的】验证中古时期分词一致性和语料类别对CRFs 分词效率的影响, 在此基础上进一步提高分词效率, 降低人工校对的工作量。【方法】以中古时期的史书、佛经、小说类语料为例, 针对中古汉语的自动分词问题, 优化分词原则, 运用CRFs 模型和词典相结合的方法, 消除中古汉语人工分词结果中易出现的分词不一致问题; 同时在CRFs 分词中引入字符分类、字典信息两种特征, 并通过对比实验选取每种特征最合适的分词模板。【结果】实验结果显示, 分词结果的总F 值在封闭测试中达到99%以上, 开放测试的综合测试中也达到89%-95%。【局限】分词不一致研究主要针对双字词, 因此三字以上词语(多字词)的识别效果稍有欠缺。【结论】在有效提高分词一致性的前提下, 字符分类、词典标记特征能够有效提高中古汉语CRFs 分词的精确度。同时本文提出的中古汉语分词系统可以服务于中古时期多类别的汉语语料。

点击量 1945 下载量 1122 评论 0

基于词和实体标注的古籍数字人文知识库的构建与应用——以《资治通鉴·周秦汉纪》为例

数字人文下的典籍深度学习实体自动识别模型构建及应用研究

基于CRFs 和词典信息的中古汉语自动分词