分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-27 合作期刊: 《图书情报工作》
摘要: [目的/意义]基于科学数据构建合作网络,并与传统出版物合作网络进行比较,从网络分析层面解读两个合作网络的差异,为科学数据管理工作提供借鉴。[方法/过程]以ClinicalTrials.gov网站的临床科学数据库为例,利用爬虫抓取该网站上传统论文题录信息以及临床试验信息的元数据并分别构建合作网络,通过复杂网络分析比较试验合作机构网络与论文合作机构网络之间的异同。[结果/结论]基于科学数据集和论文数据集的元数据构建的合作网络,与仅从论文数据集中提取元数据构建的网络相比,前者能够展现更丰富准确的合作信息,从而揭示科学数据管理和开放共享的重要性。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 在人文计算迅速发展的背景下,利用文本挖掘技术对《左传》进行聚类计算,为春秋时期社会发展状况的主题挖掘等定量分析提供参考,同时对典籍文本多维度重组和分析也具有一定的借鉴意义。[方法/过程] 采用文本聚类方法对《左传》进行多维度的定量分析,打破《左传》线性的编年体记载顺序,先运用词匹配算法从《左传》特征词语料中得到各个诸侯国语料,再将LDA主题模型先后用于处理《左传》特征词语料和选取的诸侯国语料,最后结合时间信息进行主题强度计算。[结果/结论] 实验结果表明,根据主题-词分布可以挖掘出春秋时期社会和诸侯国各方面的发展内容,通过主题强度变化曲线可以总结出春秋时期社会和各诸侯国的各方面发展态势。通过LDA主题聚类方法最终展现出了春秋时期整个社会以及不同诸侯国在战争、政治及外交等的发展变迁。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 针对《左传》中的战争事件展开研究,对先秦历史乃至中华民族文化的研究具有重要参考价值。[方法/过程] 基于框架理论构建《左传》战争事件基本框架体系,利用模式匹配法进行战争句识别,选择条件随机场模型、结合特征模板对战争时间、交战双方等7个命名实体进行识别和抽取,最后基于得到的结构化数据对战争事件进行分析和可视化展示。[结果/结论] 研究结果表明,条件随机场模型能够较好地应用于《左传》战争事件的抽取;特征选取会影响实体识别的结果;具体内容方面,春秋时期晋国、楚国、齐国、郑国等国参战频率较高,晋国为主要进攻方,郑国为主要防守方。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 构建面向典籍文本的语义本体,能够促进典籍文本的挖掘与分析。然而由于典籍文本与现代文本在语法上存在较大差异,给面向典籍的语义本体构建带来了困难。[方法/过程] 本文运用自然语言处理技术探讨针对先秦典籍的本体构建方法。以国际上文化遗产领域通用的CIDOC CRM为框架,设计先秦典籍本体模型。针对典籍文本内容的特点及句法特征,将规则抽取与条件随机场方法相结合,提出一套本体实例自动获取技术,并以《左传》为实验语料进行测试。[结果/结论] 实验表明,本文所提出的本体实例抽取技术能够较好地提高面向典籍文本的本体构建效率。基于规则的本体实例抽取实验F值在93%左右,基于条件随机场的本体实例抽取最佳特征模板的F值为82.51%。在本体实例获取中,词性信息和位置信息具有重要作用。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 针对文化遗产语义组织发展现状展开研究,对我国文化遗产研究具有重要参考价值。[方法/过程] 采用系统调研法、案例分析法和统计分析法,以调研数据概括为基础,从语义组织方式和知识服务与工具两个方面对文化遗产项目语义组织研究现状进行梳理,从知识建模、知识抽取和知识挖掘与利用三个维度对文化遗产语义组织关键技术进行剖析。[结果/结论] 研究发现,数据互操作、领域本体标准化、个性化语义、自动化工具和数据版权是未来文化遗产语义组织发展的关键。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 事件自动识别抽取是当前典籍主题挖掘研究中一个新的重要课题,其中事件触发词的识别是一项基础的工作,本研究旨在探索古代典籍中事件触发词自动识别和分类的通用方法。[方法/过程] 首先运用LDA模型对动词进行主题聚类,归纳典籍事件触发动词的分类体系;并依据聚类结果与分类体系,初步构建触发动词的种子词集。在此基础上,通过语义相似度计算,对种子词集进行扩展,构建典籍事件触发词语义数据集。在实验阶段,以先秦时期的重要典籍《左传》为例,对分类体系构建和种子词集扩展的方法进行验证。[结果/结论] 结果表明,本文所提出的典籍事件触发词识别方法可行有效,据此构建的事件触发词集具有较高可信度,未来可进一步扩大实验的样本数量及范围。