ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

按主题分类

按作者

按机构

当前资源共 5条

隐藏摘要

点击量

时间

下载量

您选择的条件: 王昊

1. ChinaXiv:202310.02985
下载全文

多任务环境下融合迁移学习的新冠疫情新闻要素识别研究

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-10-08 合作期刊: 《知识管理论坛》

赵梓博王昊刘友华张卫孟镇

摘要： [ 目的 / 意义 ] 在新冠疫情背景下，提出多任务环境下融合迁移学习的疫情新闻要素识别方法，向公众提供面向应急事件的知识服务。[ 方法 / 过程 ] 首先，通过多任务识别新闻要素：基于规则识别时间要素；并融合模型迁移与深度学习方法，构建跨领域的要素识别模型。在此基础上，构建疫情新闻要素的关联数据，以知识图谱的方式展示各要素之间的关联关系。[ 结果 / 结论 ] 实验结果表明，除药物外的新闻要素的识别 F1 值均在 80% 以上，说明融合迁移学习的模型能够取得较优的识别效果；并且，关联数据知识图谱能够直观显示新闻的重点要素及新闻的主要内容。综上所述，提出的方法能够有效识别新冠疫情新闻要素，从而帮助新闻读者准确、高效地获取新闻中的重要信息。

通过

点击量 209 下载量 123 评论
2. ChinaXiv:202209.00004
下载全文

基于文本生成技术的历史古籍事件识别模型构建研究

分类：图书馆学、情报学 >> 情报过程自动化的方法和设备提交时间： 2022-08-31

王彦莹王昊朱惠李晓敏

摘要：目的对比序列标注方法和文本生成方法在历史古籍事件识别上的表现，以构建历史古籍事件识别模型。方法本文选取《三国志》为原始语料，序列标注实验对《三国志》事件数据集进行BMES标注，构建BBCN-SG模型，文本生成实验构建T5-SG模型，对比两种方法的表现。又构建RoBERTa-SG、NEZHA-SG模型展开生成模型的对比实验。结合三个文本生成模型，融入Stacking集成学习的思想，构建Stacking-TRN-SG模型。结果在历史古籍事件识别建模问题上，文本生成方法的表现明显优于序列标注方法。而在文本生成方法中，三个模型表现则是RoBERTa-SG > T5-SG > NEZHA-SG。Stacking集成学习大大提高了生成模型的识别效果。局限本文计算资源有限，Stacking-TRN-SG模型缺少在其他历史古籍语料中的应用研究。结论本文构建的Stacking-TRN-SG模型初步实现历史古籍的自动事件识别。

通过

点击量 2230 下载量 312 评论
3. ChinaXiv:201711.01949
下载全文

中文文本聚类常用停用词表对比研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

官琴邓三鸿王昊

摘要：【目的】通过实验对比分析, 比较不同停用词表对于不同类型的文本数据的作用效果, 对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表, 基于三个不同语料库运用汉语分词技术、TF-IDF 特征评估函数以及VSM 模型进行文本处理, 并且采用Java 编写的K-means 算法进行聚类实验, 通过准确率P、召回率R 和F1 三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显, 词表的长度、内容结构是影响作用效果的直接因素, 其中两字停用词作用效果最为明显。【局限】实验文本类型及数量有限, 同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较, 未对停用词按照类别分类进行实验分析。【结论】停用词表对于文本聚类准确度有很大的影响, 构建或选取适宜的中文停用词表极为重要。同时, 过度增加停用词的数量并不会一直改善聚类结果。

点击量 8607 下载量 4758 评论
4. ChinaXiv:201711.01199
下载全文

基于CRFs 的冶金领域中文专利术语抽取研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-10-11 合作期刊: 《数据分析与知识发现》

王密平王昊邓三鸿吴志祥

摘要：【目的】探讨冶金领域中文专利术语抽取模型的最优条件, 用于有效地抽取冶金领域专利术语。【方法】使用尚不完善的核心语料库, 在无需人工标引的情况下, 采用条件随机场(CRFs)构建字角色标注的冶金领域中文专利术语识别模型。详细说明模型的构建过程, 同时重点对比CFRs 的各个因素(特征组合、字长窗口等)对识别效果的影响。【结果】实验结果表明字序列、级别特征、领域特征、温度特征的组合在字长窗口为3, c 等于1,f 等于1 时, 准确率达到94.26%, 召回率达到94.37%, F1 值达到94.5%。【局限】核心词典欠完善, 使得部分词语标注不够准确; 未与其他方法作详细比较, 未详细说明CRFs 的可靠性。【结论】CRFs 在适当的角色和特征以及特征模板的组合下能较好地识别出冶金领域的中文专利术语。

点击量 5614 下载量 1292 评论
5. ChinaXiv:201711.01257
下载全文

中文领域专业术语层次关系构建研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-10-11 合作期刊: 《数据分析与知识发现》

朱惠杨建林王昊

摘要：【目的】对如何从中文非结构化文本获取术语的层次关系进行探讨。【方法】从CNKI 获取数字图书馆学科领域文献, 通过术语抽取、术语向量空间模型构建、BIRCH 算法聚类和聚类标签确定构建术语的语义层次结构。【结果】构建数字图书馆领域术语的层次结构, 并对构建结果进行验证, 聚类正确率达到80.88%, 类标签抽取正确率达到89.71%。【局限】对构建效果的验证是通过随机抽样进行的, 且仅与一种其他构建方法进行实证比较。【结论】应用BIRCH 算法聚类构建术语层次结构, 该方法与K-means 聚类方法相比具有明显优势, 具备较高的执行效率和聚类有效性。

点击量 2122 下载量 1180 评论

多任务环境下融合迁移学习的新冠疫情新 闻要素识别研究

基于文本生成技术的历史古籍事件识别模型构建研究

中文文本聚类常用停用词表对比研究

基于CRFs 的冶金领域中文专利术语抽取研究

中文领域专业术语层次关系构建研究

多任务环境下融合迁移学习的新冠疫情新闻要素识别研究