基于用户自然标注的TF-IDF辅助标引算法及实证研究
后印本
Empirical Research on TF-IDF Assisted Indexing Algorithm Based on Users' Natural Annotation
-
作者:
陈白雪
1
宋培彦
1
-
作者单位:
-
提交时间:2023-08-26 23:57:10
摘要: [目的/意义] 从用户角度出发,研究基于用户自然标注的TF-IDF辅助标引算法。[方法/过程] 首先以核心期刊论文中作者标注的关键词和分类号为源数据,通过对关键词词频进行统计,使用TF-IDF算法构建用户标注词表、形成标引知识库,然后通过IK Analyzer分词软件对待标引的科技项目数据进行切词和停用词处理,进而使用TF-IDF算法和位置加权算法提取科技项目数据的特征词,最终实现对科技项目数据进行关键词和分类的同步标引。[结果/结论] 实验结果表明,机标关键词与人标关键词的相似比在60%以上的科技项目数据占总数的68.1%,机标分类号与人标分类号前三位一致的占总数的83.9%,结果表明基于用户自然标注数据并采用TF-IDF算法在关键词和分类标引方面是可行的。
版本历史
[V1] |
2023-08-26 23:57:10 |
ChinaXiv:202308.00433V1
|
下载全文 |