• 产业链视角下结合 K-means 和 LDA 的专 利技术主题挖掘与趋势分析——以虚拟现实技术为例

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-10-08 合作期刊: 《知识管理论坛》

    摘要: [ 目的 / 意义 ] 在产业链视角下,以虚拟现实技术为例,构建 VR 专利产业链语料库,挖掘中 国 VR 专利的技术主题、研发热点和未来发展趋势。[ 方法 / 过程 ] 首先,利用 Python 爬取 VR 领域的 专利文本,通过数据清洗得到有效语料库;然后,结合 IPC 分类号和 K-means 聚类算法,构建并验证 VR 专利产业链;最后,基于 TF-IDF 算法和 LDA 主题模型,识别出产业链视角下中国 VR 专利的核心 技术主题及其综合强度、技术研发热点和未来趋势。[ 结果 / 结论 ] 当前中国 VR 产业链各环节的专利 比例不均衡,上游研发最热门,其次是下游应用,最薄弱的是中游制作。主题挖掘方面,上游热点为软 件研发,中游热点为影视制作,下游热点为医疗、教育、娱乐应用。未来趋势方面,产业链上游将以电 数字数据处理、光学元件、图像通信等技术为主流,中游将以车辆部件、动力装置、减振装置等技术为 主流,下游将以室内游戏、医学诊断、鉴定等技术为主流。

  • 微博舆情传播周期中不同传播者的主题挖掘与观点识别

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-27 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 探索微博舆情传播周期中不同传播者关注的舆情热点和传播内容的主要观点,进而发现舆情传播的特点和规律,为舆情分析与决策提供依据。[方法/过程] 以特定舆情事件的事实文本数据为来源,以生命周期理论和LDA方法为指导,设计研究流程与构建研究模型,对微博舆情事件中不同传播者的话题进行主题研究,其中包括主题抽取和结果语义标注、各阶段的不同传播者主题的语义分析、基于时间维度的舆情主题观点识别与刻画。[结果/结论] 研究发现,论文所提出的研究模型能够挖掘出舆情传播周期中不同传播者的主题结构、观点脉络以及特征,研判出分布在文字当中有关联性的、代表性的、重要的词语。同时,结论中还发现微博中的官媒、大众媒体发布信息中的话题和用户谈论的热点话题具有明显的差异性。

  • 基于多源数据的领域主题演化路径分析

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-27

    摘要: 目的/意义 为了全面、客观、高效、直观地掌握科技领域主题的发展规律和演变趋势,本文提出了一种基于多源数据的领域主题演化路径识别和分析框架。 方法/过程 获取不同来源的科技文献数据,利用多维样本有序聚类方法辅助时间切片,基于改进的词袋构建方法,提升LDA模型主题识别效果,借助Louvain社区发现算法在主题层进行多源数据的融合,分析领域主题演化路径。 结果/结论 利用美国太赫兹研究领域基金项目、论文和专利三种来源的数据进行实证研究,结果表明,三种数据源能够清晰划分出4个时间窗口,改进的词袋构建方法能够表征更准确的领域信息内涵,主题社区有助于从多源数据复杂的演化网络中厘清主题演化脉络。

  • 春秋时期社会发展的主题挖掘与演变分析——以《左传》为例

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 在人文计算迅速发展的背景下,利用文本挖掘技术对《左传》进行聚类计算,为春秋时期社会发展状况的主题挖掘等定量分析提供参考,同时对典籍文本多维度重组和分析也具有一定的借鉴意义。[方法/过程] 采用文本聚类方法对《左传》进行多维度的定量分析,打破《左传》线性的编年体记载顺序,先运用词匹配算法从《左传》特征词语料中得到各个诸侯国语料,再将LDA主题模型先后用于处理《左传》特征词语料和选取的诸侯国语料,最后结合时间信息进行主题强度计算。[结果/结论] 实验结果表明,根据主题-词分布可以挖掘出春秋时期社会和诸侯国各方面的发展内容,通过主题强度变化曲线可以总结出春秋时期社会和各诸侯国的各方面发展态势。通过LDA主题聚类方法最终展现出了春秋时期整个社会以及不同诸侯国在战争、政治及外交等的发展变迁。

  • 虚拟学术社区中融合用户动态兴趣与社交关系的学者推荐研究

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 考虑用户兴趣和社交关系两方面的动态变化,提出融合用户动态兴趣与社交关系的学者推荐模型。[方法/过程] 首先,利用不同学科的期刊文献作为分类语料,基于Labeled-LDA模型对学者所发博文进行学科领域判别。然后,依据KNN算法对博文进行学科分类,接着利用学科兴趣变化速率改进时间因子,计算得到学者动态兴趣相似度;根据学者间链接的数量关系计算学者的PageRank值,结合学者所发博文的时间价值计算得到全局信任度。在学者评论、推荐交互行为中引入时间权重计算学者交互信任度,综合全局信任度和交互信任度得到学者的动态社交信任度。最后,融合兴趣相似度与信任度进行学者推荐。[结果/结论] 虚拟学术社区中融合用户动态兴趣与社交关系的学者推荐模型从动态兴趣和动态社交关系两个视角出发,能够有效提高学者推荐的质量。

  • 词向量与LDA 相融合的短文本分类方法

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】针对短文本主题聚焦性差以及严重的特征稀疏问题, 设计一种基于词向量与LDA 主题模型相融合的短文本分类方法。【方法】从“词”粒度及“文本”粒度层面同时对短文本进行精细语义建模, 首先基于Word2Vec 训练词向量并通过相加平均法合成“词”粒度层面的短文本向量, 基于吉布斯采样法训练LDA 主题模型并根据主题概率最大原则对短文本进行特征扩展, 然后基于词向量相似度计算扩展特征权重得到“文本”粒度层面的短文本向量, 最后通过向量拼接构建词向量与LDA 相融合的短文本表示模型, 在此基础上通过最近邻分类算法完成短文本分类。【结果】相比传统的基于向量空间模型、基于词向量、基于LDA 主题模型这三种基于单一模型的分类方法, 词向量与LDA 相融合的分类方法准确率、召回率、F1 值均有提升, 分别至少提升3.7%,4.1%和3.9%。【局限】仅应用于最近邻分类器, 尚未推广应用到朴素贝叶斯和支持向量机等多种不同的分类器。【结论】基于词向量与LDA 相融合的短文本表示模型进行分类, 能有效克服短文本的主题聚焦性差及特征稀疏性问题, 提高短文本分类性能。