分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】通过大规模文本聚类技术进行话题检测, 并自动拣选优质话题。【方法】以新浪微博上与饮食相关的微博内容为数据源, 结合文本聚类与深度学习知识进行话题检测。通过匹配微博发布的月份, 将微博划分为四季微博; 使用向量空间模型和文本聚类方法, 对不同季节的微博进行话题检测, 获得候选话题; 结合深度学习知识, 提出主题覆盖率概念, 用以自动评价话题质量, 去除低质量话题。【结果】基于主题覆盖率的话题筛选结果符合人工拣选预期, 抽取获得主题覆盖率高于0.5 的优质话题。【局限】话题检测质量的评价主要以定性评价为主。【结论】通过计算主题覆盖率来自动选择优质话题, 该方法效率高, 通用性强, 获得的话题便于理解, 较好地揭示了四季中饮食微博的话题分布。