• 国家药监局综合司 国家卫生健康委办公厅
  • 国家药监局综合司 国家卫生健康委办公厅

面向知识图谱构建的中文电子病历命名实体识别方法研究

通讯作者: 张锋, trees_357@126.com
DOI:10.12201/bmr.202312.00011
声明:预印本系统所发表的论文仅用于最新科研成果的交流与共享,未经同行评议,因此不建议直接应用于指导临床实践。

Named Entity Recognition in Chinese Electronic Medical Records Using Knowledge Graph Construction

Corresponding author: zhangfeng, trees_357@126.com
  • 摘要:摘要 目的/意义探索基于中文电子病历的命名实体识方法在构建医学知识图谱和相关应用推广中的技术可行性。方法/过程采用真实医疗电子病历数据对词嵌入表示模型进行精化,构建医学术语专有的嵌入表示,并利用卷积神经网络等多模型来提取局部语义特征,实现基于堆叠注意网络的中文医疗命名实体识别。结果/结论本研究中堆叠注意网络模型在F1值上达到91.5%,相比其他模型具备更强的医疗命名实体识别性能。在研究通过提出新颖的堆叠注意网络,进一步解决中文医疗命名实体识别的难点,在实现全局语义特征全面深入提取的同时降低时间成本。

    关键词: 电子病历知识图谱命名实体识别堆叠注意网络预训练语言模型

     

    Abstract: Abstract Objective/Meaning: To explore the technical feasibility of named entity recognition method based on Chinese electronic medical records in the construction of medical knowledge map and related application promotion. Methods/Process: Using the large-scale real-world medical electronic medical record data to fine-tune the word embedding representation model RoBERTa to build the proprietary embedded representations of the medical terms. Leveraging convolutional neural network model to extract local semantic features. Finally, a stacked BiLSTM is constructed, which has a multi-layer structure and a novel stacked method. Results/Conclusions: The stacked attention network model proposed in this paper achieves 91.5% on F1 value, which has a stronger medical named entity recognition performance than other advanced models. The stacked attention network is proposed to further solve the task of Chinese medical named entity recognition, which can achieve comprehensive and in-depth extraction of global semantic features and reduce the time cost.

    Key words: Electronic Medical Record; Knowledge Graph; Named Entity Recognition; Stacked Attention Network; Bidirectional Encoder Representation from Transformers

    提交时间:2023-12-11

    版权声明:作者本人独立拥有该论文的版权,预印本系统仅拥有论文的永久保存权利。任何人未经允许不得重复使用。
  • 图表

  • 刘彬, 肖晓霞, 邹北骥, 周展, 郑立瑞, 谭建聪. 融合汉字部首的BERT-BiLSTM-CRF中医医案命名实体识别模型. 2023. doi: 10.12201/bmr.202303.00004

    胡海洋, 赵从朴, 马琏, 姜会珍, 张晶, 朱卫国. 基于注意力机制和DGCNN的中文医疗命名实体识别. 2021. doi: 10.12201/bmr.202102.00004

    武学鸿, 杨峰, 李建华, 徐倩. 融合词向量及词属性推理的中文电子病历实体识别方法. 2021. doi: 10.12201/bmr.202109.00016

    邓嘉乐, 胡振生, 连万民, 华赟鹏, 周毅. 基于RoBERTa-CRF的肝癌电子病历实体识别研究. 2023. doi: 10.12201/bmr.202303.00027

    沈蓉蓉, 夏帅帅, 晏峻峰. 命名实体识别在中医药领域的研究进展. 2022. doi: 10.12201/bmr.202207.00038

    李晓瑛, 蔡妙芝, 李军莲, 任慧玲, 冀玉静, 邓盼盼, 夏光辉. 面向文献组织的新冠肺炎知识图谱构建研究. 2020. doi: 10.12201/bmr.202010.00840

    冯凤翔, 任慧玲, 李晓瑛, 王巍洁, 王勖, 张颖. 融合相似度算法与预训练模型的中文电子病历实体映射方法研究. 2023. doi: 10.12201/bmr.202305.00015

    王华琼, 俞定国, 钱归平. 基于医学社交媒体数据的多模态知识图谱构建. 2022. doi: 10.12201/bmr.202209.00005

    周海, 彭斐灵, 韦昌法. 中医诊断学辨证知识图谱构建研究与实践. 2020. doi: 10.12201/bmr.202004.00036

    赵佳奇, 王晓锋, 樊羽羽, 张 伟, 王慧璇, 李金山. 电子病历数据质量及对策研究. 2020. doi: 10.12201/bmr.202011.00008

  • 序号 提交日期 编号 操作
    1 2023-04-06

    bmr.202312.00011V1

    下载
  • 公开评论  匿名评论  仅发给作者

引用格式

陈婕卿, 竹志超, 张锋, 曾可, 姜会珍, 程振宁. 面向知识图谱构建的中文电子病历命名实体识别方法研究. 2023. biomedRxiv.202312.00011

访问统计

  • 阅读量:272
  • 下载量:5
  • 评论数:0

Email This Article

User name:
Email:*请输入正确邮箱
Code:*验证码错误