您当前的位置: > 详细浏览

人文社科领域中文通用大模型性能评测

请选择邀稿期刊:

Performance Evaluation of Chinese Universal Large Model in the Field of Humanities and Social Sciences

摘要: 目的/意义 本文以人文社科领域为出发点,从人文社科领域基础知识与人文社科学术文本两个方面入手进行人文社科领域模型性能比对。旨在为人文社科领域提供一份体系化的大模型评测基准,供人文社科相关领域研究人员参考。 方法/过程 设计了7个人文社科领域相关的评测任务并选取对应指标,在此基础上,选取了当前开源且性能较优的通用领域中文大模型,通过调用本地模型以问答形式完成领域化任务,并选取相关指标对其在人文社科领域的性能进行了量化评测。 结果/结论 评测结果表明,在本文选取的开源模型中,无论是基座模型还是对话模型,Qwen性能最优,Baichuan2紧随其后,InternLM次之,Atom表现最差,此外,大多数情况下,相较于基座模型,对话模型表现出了更加优越的性能。

版本历史

[V1] 2024-05-08 09:20:57 ChinaXiv:202405.00025V1 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量284
  •  下载量98
评论
分享