您当前的位置: > 详细浏览

基于主题模型的科技报告文档聚类方法研究 后印本

请选择邀稿期刊:

Research on the Text Clustering Method of Science and Technology Reports Based on the Topic Model

摘要: [目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。

版本历史

[V1] 2023-08-26 23:57:13 ChinaXiv:202308.00385V1 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量325
  •  下载量128
评论
分享