人文社科领域中文通用大模型性能评测

Performance Evaluation of Chinese Universal Large Model in the Field of Humanities and Social Sciences

作者： 赵志枭 ¹ 胡蝶 ¹ 刘畅 ¹ 沈思 ² 王东波 ¹
作者单位：

1. 南京农业大学信息管理学院

2. 南京理工大学经济管理学院
通讯作者： 王东波 Email:db.wang@njau.edu.cn
提交时间：2024-05-08 09:20:57

摘要: 目的/意义本文以人文社科领域为出发点，从人文社科领域基础知识与人文社科学术文本两个方面入手进行人文社科领域模型性能比对。旨在为人文社科领域提供一份体系化的大模型评测基准，供人文社科相关领域研究人员参考。方法/过程设计了7个人文社科领域相关的评测任务并选取对应指标，在此基础上，选取了当前开源且性能较优的通用领域中文大模型，通过调用本地模型以问答形式完成领域化任务，并选取相关指标对其在人文社科领域的性能进行了量化评测。结果/结论评测结果表明，在本文选取的开源模型中，无论是基座模型还是对话模型，Qwen性能最优，Baichuan2紧随其后，InternLM次之，Atom表现最差，此外，大多数情况下，相较于基座模型，对话模型表现出了更加优越的性能。

人文社科大模型评测领域知识学术文本

来自： 赵志枭
期刊： 图书情报工作
分类： 图书馆学、情报学 >> 情报学
投稿状态： 已被期刊接收
引用： ChinaXiv:202405.00025 (或此版本 ChinaXiv:202405.00025V1)
DOI:10.12074/202405.00025V1
CSTR:32003.36.ChinaXiv.202405.00025.V1
推荐引用方式： 赵志枭,胡蝶,刘畅,沈思,王东波.(2024).人文社科领域中文通用大模型性能评测.图书情报工作.doi:10.12074/202405.00025V1 (点此复制)

版本历史

[V1]

2024-05-08 09:20:57

ChinaXiv:202405.00025V1

下载全文

相关论文推荐

1. 面向科技文献的多维度学科交叉特性研究	2024-07-04
2. “生成式人工智能＋智慧图书馆”建设评价指标体系构建	2024-07-03
3. 基于扎根理论的科技智库知识服务效能影响因素及其作用机理	2024-07-02
4. WSR视角下面向学龄前儿童的图书馆绘本阅读推广服务研究	2024-07-01
5. 水书信息化建设研究进展与挑战	2024-07-01
6. 数字人文视域下古代灾荒文献知识图谱构建研究	2024-07-01
7. 中国经典画论识别及其儒家思想探究	2024-07-01
8. 动机视角下高校网络舆情传播影响因素研究——以山东省高校为例	2024-07-01
9. 国内区域性公共产品研究透视——基于 CNKI期刊的文献计量分析	2024-07-01
10. 公共数据授权运营多边平台运营机制研究	2024-07-01


公开评论匿名评论仅发给作者