您当前的位置: > 详细浏览

中文文本聚类常用停用词表对比研究

请选择邀稿期刊:
摘要: 【目的】通过实验对比分析, 比较不同停用词表对于不同类型的文本数据的作用效果, 对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表, 基于三个不同语料库运用汉语分词技术、TF-IDF 特征评估函数以及VSM 模型进行文本处理, 并且采用Java 编写的K-means 算法进行聚类实验, 通过准确率P、召回率R 和F1 三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显, 词表的长度、内容结构是影响作用效果的直接因素, 其中两字停用词作用效果最为明显。【局限】实验文本类型及数量有限, 同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较, 未对停用词按照类别分类进行实验分析。【结论】停用词表对于文本聚类准确度有很大的影响, 构建或选取适宜的中文停用词表极为重要。同时, 过度增加停用词的数量并不会一直改善聚类结果。

版本历史

[V1] 2017-11-08 16:30:53 ChinaXiv:201711.01949V1 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量8603
  •  下载量4758
评论
分享