基于多源数据的领域主题演化路径分析
Analysis of domain topic evolution path based on multi-source data
-
作者:
张敬
1,2
朱相丽
1,2
-
作者单位:
- 通讯作者:
朱相丽
Email:zhuxl@mail.las.ac.cn
-
提交时间:2023-04-27 10:21:51
摘要: 目的/意义 为了全面、客观、高效、直观地掌握科技领域主题的发展规律和演变趋势,本文提出了一种基于多源数据的领域主题演化路径识别和分析框架。 方法/过程 获取不同来源的科技文献数据,利用多维样本有序聚类方法辅助时间切片,基于改进的词袋构建方法,提升LDA模型主题识别效果,借助Louvain社区发现算法在主题层进行多源数据的融合,分析领域主题演化路径。 结果/结论 利用美国太赫兹研究领域基金项目、论文和专利三种来源的数据进行实证研究,结果表明,三种数据源能够清晰划分出4个时间窗口,改进的词袋构建方法能够表征更准确的领域信息内涵,主题社区有助于从多源数据复杂的演化网络中厘清主题演化脉络。
版本历史
[V1] |
2023-04-27 10:21:51 |
ChinaXiv:202304.01049V1
|
下载全文 |