• 产业链视角下结合 K-means 和 LDA 的专 利技术主题挖掘与趋势分析——以虚拟现实技术为例

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-10-08 合作期刊: 《知识管理论坛》

    摘要: [ 目的 / 意义 ] 在产业链视角下,以虚拟现实技术为例,构建 VR 专利产业链语料库,挖掘中 国 VR 专利的技术主题、研发热点和未来发展趋势。[ 方法 / 过程 ] 首先,利用 Python 爬取 VR 领域的 专利文本,通过数据清洗得到有效语料库;然后,结合 IPC 分类号和 K-means 聚类算法,构建并验证 VR 专利产业链;最后,基于 TF-IDF 算法和 LDA 主题模型,识别出产业链视角下中国 VR 专利的核心 技术主题及其综合强度、技术研发热点和未来趋势。[ 结果 / 结论 ] 当前中国 VR 产业链各环节的专利 比例不均衡,上游研发最热门,其次是下游应用,最薄弱的是中游制作。主题挖掘方面,上游热点为软 件研发,中游热点为影视制作,下游热点为医疗、教育、娱乐应用。未来趋势方面,产业链上游将以电 数字数据处理、光学元件、图像通信等技术为主流,中游将以车辆部件、动力装置、减振装置等技术为 主流,下游将以室内游戏、医学诊断、鉴定等技术为主流。

  • 科研机构名称归一化实现

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-27 合作期刊: 《图书情报工作》

    摘要: [目的/意义]机构名称的数目多且较为繁杂,机构名称归一化可将同一机构的规范名称以及不同时段、不同表达形式的非规范名称汇集在一起,提高查询检索的查全率和查准率;有利于建立与其他系统之间的互操作,实现资源的共享。[方法/过程]在分析机构名称字符串的特点和基于K-means算法的基础上,利用编辑距离算法实现一级机构名称的初步聚类,然后利用初步聚类结果并基于TF-IDF算法计算机构名称各词项的权值,从而基于K-means算法将机构名称围绕聚类中心抱团聚簇,并对每一个簇的机构名称赋予唯一标识符。[结果/结论]该方法可实现同一机构实体不同形式的规范名称的归一,提高机构名称聚类的准确率,但对K取值、距离测度方法的选取仍有待优化。

  • 多专长专家识别方法研究——以大数据领域为例

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-26 合作期刊: 《图书情报工作》

    摘要: [目的/意义]国家政府、大中型企业以及研究机构面对技术难题,如何找到合适的专家是迫切需要解决的问题。面对需要运用多学科知识来解决的综合性复杂难题,寻找到多专长专家显得尤为重要,寻找合适的方法识别出多专长专家是本研究的目的。[方法/过程]利用专家所发表的学术论文数据,通过抽取专家有代表性的研究专长特征,基于TFIDF加权的重叠K-means聚类算法对专家进行重叠聚类划分,挖掘出专家的多个研究专长,进而识别出多专长专家。[结果/结论]研究结果表明TFIDF加权的重叠K-means聚类算法在查准率、召回率和F值上有良好的表现,可以识别多专长专家。

  • 哥伦比亚大学口述历史中心项目聚类分析与主题解构

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 以全新视角审视挖掘哥伦比亚大学口述历史中心(CCOH)项目特征,深入解构项目主题,为丰富我国口述历史项目主题提供参考基准。[方法/过程] 选取哥伦比亚大学口述历史中心9 586个口述历史项目为研究对象,利用Python抓取数据,通过Word2Vec和K-means对筛选后的3 589个项目(过滤无简介项目5 997个)聚类分析并进行项目主题解构。[结果/结论] 哥伦比亚大学口述历史中心项目包含4个主题层面:①以人物为主题兼容并包,辐射各行各业群体;②以机构为主题博采众长,发挥自身职能优势;③以地区为主题统筹规划,联动地区体系建设;④以特定时期、具体运动/事件为主题创新范式,观照家国时代主题。

  • 中国农产品品牌评价研究的内容解析*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】通过分析中国农产品品牌评价领域的文献题名总结该领域的研究现状。【方法】对该领域的文献 题名进行 K-means 聚类, 分析每簇研究的重点内容, 分别使用因子分析、多维尺度分析和层次聚类分析进一步解 析聚类得到的每簇文献的特点。【结果】文献数量总体呈现“M”型趋势, 文献多采用模糊综合法, 从多个评价角 度集中探讨评价指标体系、评价模型、影响因素等方面。【局限】仅针对题名进行分析, 未涉及关键词与摘要文 本。【结论】聚类结果较好地揭示了中国该领域的研究现状, 但没有反映出种类农产品、Interband 品牌评估法相 关内容。

  • 中文文本聚类常用停用词表对比研究

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】通过实验对比分析, 比较不同停用词表对于不同类型的文本数据的作用效果, 对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表, 基于三个不同语料库运用汉语分词技术、TF-IDF 特征评估函数以及VSM 模型进行文本处理, 并且采用Java 编写的K-means 算法进行聚类实验, 通过准确率P、召回率R 和F1 三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显, 词表的长度、内容结构是影响作用效果的直接因素, 其中两字停用词作用效果最为明显。【局限】实验文本类型及数量有限, 同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较, 未对停用词按照类别分类进行实验分析。【结论】停用词表对于文本聚类准确度有很大的影响, 构建或选取适宜的中文停用词表极为重要。同时, 过度增加停用词的数量并不会一直改善聚类结果。

  • 基于LDA 模型的移动投诉文本热点话题识别

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】运用中文信息处理和话题识别与追踪的方法, 从大量移动投诉文本中找出有价值的信息。【方法】从分析投诉文本的特点入手, 使用k-means 先对文本聚类。利用LDA 对每个类进行建模, 提取话题, 并从词频、词跨度和词长三方面计算每个话题中词的权值, 把权重最大的词作为该话题的标签, 并计算每个话题的文档分布概率均值。对具有相同标签的话题, 先按照均值最大的原则去掉重复标签话题, 再对所有话题计算文档支持率, 并将文档支持率作为话题的热度, 通过热度区分热点话题和一般话题。【结果】对投诉文本进行时间上的建模, 通过对比一般话题和热点话题, 得出热点话题的支持文档率至少是一般话题的3 倍, 支持文档率变化趋势也比一般话题高, 说明本文算法是有效的。【局限】没有考虑到话题之间的语义关系。【结论】利用LDA 模型对移动投诉话题检测初探的方法是比较合理和有效的, 对今后此领域的研究具有一定的借鉴意义。

  • 共主题网络方法及应用

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】通过构建共主题网络, 对主题之间的关系进行分析, 优化主题包含的词项。【方法】将“文档–主 题”二分图依照加权投影规则生成共主题网络, 使用介数中心性和主题概率结合的方法测度共主题网络中重点主 题, 通过 GN 算法对主题网络进行社区分割, 使用相关度方法优化主题词项。【结果】将共主题网络与基于 JSD 的 K-means 方法进行比较发现, 两者在三种主题数(最优主题数 28 和随机主观主题数 20, 30)测试下产生的聚类 数目都相同, 聚类内容的一致程度分别达到 100%、95%、87%。【局限】其他社区分割方法共主题网络未能全面涉 及。【结论】共主题网络照顾到了高维数据的需要, 能够探查出文档中哪些主题是重要主题, 哪些主题联系紧密。