分类: 图书馆学、情报学 >> 情报过程自动化的方法和设备 提交时间: 2022-08-31
摘要: 目的 对比序列标注方法和文本生成方法在历史古籍事件识别上的表现,以构建历史古籍事件识别模型。 方法 本文选取《三国志》为原始语料,序列标注实验对《三国志》事件数据集进行BMES标注,构建BBCN-SG模型,文本生成实验构建T5-SG模型,对比两种方法的表现。又构建RoBERTa-SG、NEZHA-SG模型展开生成模型的对比实验。结合三个文本生成模型,融入Stacking集成学习的思想,构建Stacking-TRN-SG模型。 结果 在历史古籍事件识别建模问题上,文本生成方法的表现明显优于序列标注方法。而在文本生成方法中,三个模型表现则是RoBERTa-SG > T5-SG > NEZHA-SG。Stacking集成学习大大提高了生成模型的识别效果。 局限 本文计算资源有限,Stacking-TRN-SG模型缺少在其他历史古籍语料中的应用研究。 结论 本文构建的Stacking-TRN-SG模型初步实现历史古籍的自动事件识别。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》
摘要: 【目的】对如何从中文非结构化文本获取术语的层次关系进行探讨。【方法】从CNKI 获取数字图书馆学科领域文献, 通过术语抽取、术语向量空间模型构建、BIRCH 算法聚类和聚类标签确定构建术语的语义层次结构。【结果】构建数字图书馆领域术语的层次结构, 并对构建结果进行验证, 聚类正确率达到80.88%, 类标签抽取正确率达到89.71%。【局限】对构建效果的验证是通过随机抽样进行的, 且仅与一种其他构建方法进行实证比较。【结论】应用BIRCH 算法聚类构建术语层次结构, 该方法与K-means 聚类方法相比具有明显优势, 具备较高的执行效率和聚类有效性。