中文电子病历的分词及实体识别研究

Healthcare Data Mining: Word Segmentation and Named Entity Recognition in Chinese Electronic Medical Record

作者： 王若佳 ^1,2 赵常煜 ¹ 王继民 ¹
作者单位：

1. 北京大学信息管理系北京 100871

2. 北京大学海洋研究院北京 100871
提交时间：2023-07-26 17:46:44

摘要: [目的/意义]健康医疗大数据是我国重要的基础性战略资源，本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务，对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表、官方标准、健康网站数据及其他医学补充词库构建了词语数量级达到10万的医学词表；然后对电子病历的字段进行分词，对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果；最后，以自动分词和人工标注结果为语料，实现基于条件随机场的电子病历实体识别研究，并比较不同实体类别以及不同文本特征下的实体识别效果，选出最优模板。[结果/结论]分词结果显示，AC自动机的效果最好，F值可达82%；实体识别结果表明，"检查"和"疾病"实体的识别效果最好，而"症状"的识别效果不太理想。

电子病历中文分词实体识别健康医疗大数据 AC自动机条件随机场

期刊： 图书情报工作
分类： 图书馆学、情报学 >> 图书馆学
引用： ChinaXiv:202307.00628 (或此版本 ChinaXiv:202307.00628V1)
DOI:10.12074/202307.00628V1
CSTR:32003.36.ChinaXiv.202307.00628.V1
推荐引用方式： 王若佳,赵常煜,王继民.(2023).中文电子病历的分词及实体识别研究.图书情报工作.[ChinaXiv:202307.00628] (点此复制)

版本历史

[V1]

2023-07-26 17:46:44

ChinaXiv:202307.00628V1

下载全文

相关论文推荐

1. 《学术出版透明与最佳行为准则》更新及其对中国学术期刊的启示	2024-05-28
2. 强化故事力打造优质短视频显著提升阅读推广效果	2024-05-22
3. 英国大型阅读推广项目多元协作模式解析	2024-05-20
4. 多元协同视角下高校图书馆融合发展模式及思路	2024-05-15
5. 考虑节点间强弱关系的突发事件信息传播网络分析	2024-05-15
6. 高校图书馆服务乡村振兴的知识信息转移模型探讨	2024-05-15
7. 科技赋能非遗转化与发展路径研究	2024-05-15
8. 情绪因素影响下突发公共事件网络舆情演化及政府应对研究——基于三方演化博弈视角	2024-05-15
9. 面向数字包容的农民信息获取行为分析：群体聚焦与现实关切	2024-05-15
10. 发展新质生产力的信息资源管理学科回应与思考	2024-05-15


公开评论匿名评论仅发给作者