ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2022
1
2017
1

按主题分类

按作者

按机构

当前资源共 2条

隐藏摘要

点击量

时间

下载量

您选择的条件: 朱惠

1. ChinaXiv:202209.00004
下载全文

基于文本生成技术的历史古籍事件识别模型构建研究

分类：图书馆学、情报学 >> 情报过程自动化的方法和设备提交时间： 2022-08-31

王彦莹王昊朱惠李晓敏

摘要：目的对比序列标注方法和文本生成方法在历史古籍事件识别上的表现，以构建历史古籍事件识别模型。方法本文选取《三国志》为原始语料，序列标注实验对《三国志》事件数据集进行BMES标注，构建BBCN-SG模型，文本生成实验构建T5-SG模型，对比两种方法的表现。又构建RoBERTa-SG、NEZHA-SG模型展开生成模型的对比实验。结合三个文本生成模型，融入Stacking集成学习的思想，构建Stacking-TRN-SG模型。结果在历史古籍事件识别建模问题上，文本生成方法的表现明显优于序列标注方法。而在文本生成方法中，三个模型表现则是RoBERTa-SG > T5-SG > NEZHA-SG。Stacking集成学习大大提高了生成模型的识别效果。局限本文计算资源有限，Stacking-TRN-SG模型缺少在其他历史古籍语料中的应用研究。结论本文构建的Stacking-TRN-SG模型初步实现历史古籍的自动事件识别。

通过

点击量 2283 下载量 331 评论 0
2. ChinaXiv:201711.01257
下载全文

中文领域专业术语层次关系构建研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-10-11 合作期刊: 《数据分析与知识发现》

朱惠杨建林王昊

摘要：【目的】对如何从中文非结构化文本获取术语的层次关系进行探讨。【方法】从CNKI 获取数字图书馆学科领域文献, 通过术语抽取、术语向量空间模型构建、BIRCH 算法聚类和聚类标签确定构建术语的语义层次结构。【结果】构建数字图书馆领域术语的层次结构, 并对构建结果进行验证, 聚类正确率达到80.88%, 类标签抽取正确率达到89.71%。【局限】对构建效果的验证是通过随机抽样进行的, 且仅与一种其他构建方法进行实证比较。【结论】应用BIRCH 算法聚类构建术语层次结构, 该方法与K-means 聚类方法相比具有明显优势, 具备较高的执行效率和聚类有效性。

点击量 2155 下载量 1190 评论 0

基于文本生成技术的历史古籍事件识别模型构建研究

中文领域专业术语层次关系构建研究