• 一种分布式语义增强的词汇链文本表示模型构建方法

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】利用分布式语义关联计算词衔接关系, 解决目前词汇链构建时存在的词间关系探测深度不够等问 题, 提高词汇链构建质量。【方法】对词汇链构建的技术方法进行归纳, 利用 WordNet 词典关系来计算文本中语 言单元的语义关联, 利用分布式记忆模型来计算语言单元之间的潜在语义关系, 将这两种语义关系结合起来实 现词汇链文本表示模型的构建。同时在理论研究的基础之上选择医学领域科技论文进行对比实验。【结果】在文 本主题描述方面, 本文方法的词汇链构建结果要优于非贪婪算法, 算法耗时与非贪婪算法相当。【局限】算法耗 时较长; 没有完整考虑词衔接关系; 只在对医学领域科技文献的主题识别中验证了该方法的有效性, 还需要在 更多领域进行证明。【结论】分布式语义关联可以识别潜在语义, 对使用多元短语构建词汇链也有较大的帮助, 能 有效地增强词汇链构建效果。