基于大模型知识蒸馏的专利技术功效词自动抽取方法研究：以车联网V2X领域为例

Research on automatic extraction of technical and function words extraction method of patent based on large model knowledge distillation: A case study in the field of Vehicle to Everything V2X

作者： 王奎芳 ^1,2 吕璐成 ^1,2 孙文君 ^1,2 王翼虎 ³ 赵亚娟 ^1,2
作者单位：

1. 中国科学院文献情报中心

2. 中国科学院大学经济与管理学院信息资源管理系

3. 中国科学技术信息研究所
通讯作者： 吕璐成 Email:lvlc@mail.las.ac.cn
提交时间：2024-03-01 16:55:38

摘要: 目的本文旨在提高专利技术功效自动化提取的准确度。方法使用ChatGPT作为教师模型（Teacher-model），ChatGLM3作为学生模型(Student-model)，通过知识蒸馏，将ChatGPT生成的训练数据微调ChatGLM3，得到多个技术词抽取模型和功效词抽取模型。采用多个技术词抽取模型分别从专利的摘要、第一权利要求和技术功效语段中抽取技术词，并采用功效词抽取模型从技术功效语段中抽取功效词。结果微调后的多个技术词抽取模型和功效词抽取模型相较于ChatGPT，在抽取技术词和功效词时呈现准确率高、召回率低的特点，第一权利要求的ChatGLM3微调模型的准确率和F1值最高，分别为0.734和0.724。功效词抽取模型抽取的功效词的准确率为0.649，大于商业工具标注功效词的准确率0.53。局限本研究的技术领域和专利语言单一，验证数据量偏小，数据清洗规则还有待于继续优化。结论本研究方案通过知识蒸馏操作，提升了大语言模型自动化抽取技术功效的准确性。同时，本研究能够支持从专利文本中挖掘前沿创新技术、热点技术，支撑更高质量的智能化专利分析。

技术功效词抽取知识蒸馏微调大模型语义相似矩阵

来自： 王奎芳
期刊： 数据分析与知识发现
分类： 图书馆学、情报学 >> 情报学
投稿状态： 已被期刊接收
引用： ChinaXiv:202402.00235 (或此版本 ChinaXiv:202402.00235V2)
DOI:10.12074/202402.00235V2
CSTR:32003.36.ChinaXiv.202402.00235.V2
推荐引用方式： 王奎芳,吕璐成,孙文君,王翼虎,赵亚娟.(2024).基于大模型知识蒸馏的专利技术功效词自动抽取方法研究：以车联网V2X领域为例.数据分析与知识发现.doi:10.12074/202402.00235V2 (点此复制)

版本历史

[V2]	2024-03-01 16:55:38	ChinaXiv:202402.00235V2	下载全文
[V1]	2024-02-26 11:34:06	ChinaXiv:202402.00235v1 查看此版本	下载全文

相关论文推荐

1. 关于一个合理的公共产品决定只能来自于一个可以胜任的公共权力机关的论断是否是阿罗不可能定理的推论的文献考证	2024-05-12
2. 结合本地实际统筹做好草原牧区公共阅读推广工作思忖	2024-05-09
3. 基于科学学理论的科技期刊影响力提升策略研究	2024-05-08
4. 人文社科领域中文通用大模型性能评测	2024-05-08
5. 基于改进SEIRS模型的网络舆情衍生话题传播建模与仿真分析	2024-05-06
6. GWO-LSTM预测下的高校网络舆情风险演化研究	2024-05-06
7. 面向信息资源管理学科的话语体系构建思考	2024-05-04
8. 期刊预印本政策的作用机制模型构建——基于扎根理论的分析	2024-05-04
9. 高校图书馆高质量发展总体设计与发展路径的思考	2024-05-04
10. 我国政策体系下科技期刊出版伦理规范化建设研究	2024-05-04


公开评论匿名评论仅发给作者