• 国家药监局综合司 国家卫生健康委办公厅
  • 国家药监局综合司 国家卫生健康委办公厅

中文电子病历数据元抽取方法

通讯作者: 郭维嘉, guowj2022@163.com
DOI:10.12201/bmr.202404.00038
声明:预印本系统所发表的论文仅用于最新科研成果的交流与共享,未经同行评议,因此不建议直接应用于指导临床实践。

Method for Extracting Data Elements from Chinese Electronic Medical Records

Corresponding author: Guo Weijia, guowj2022@163.com
  • 摘要:目的/意义从电子病历中抽取遵循国家标准的数据元,有助于实现电子病历数据的细粒度共享。方法/过程提出一种中文电子病历数据元抽取方法。首先利用ALBERT、BiLSTM和CRF模型对电子病历进行序列标注,并根据标注结果生成一组候选数据元;然后针对每个候选数据元,采集其上下文信息并形成一个增强的键向量;最后计算该向量与标准向量之间的相似度,据此判断候选数据元是否有效。结果/结论结果显示,该方法的F1值为90.32%,效果较好;不足之处是实验数据集规模较小且数据元类型分布不均衡。

    关键词: 电子病历数据元ALBERT序列标注Token向量

     

    Abstract: Purpose/Significance Extracting data elements that comply with national standards from EMR (Electronic Medical Records) can help to achieve fine-grained sharing of EMR data. Method/Process This paper proposes a method for extracting data elements from Chinese EMRs. Firstly, it uses the ALBERT, BILSTM and CRF models to perform sequence labeling on EMRs, and generates a set of candidate data elements based on labeling results. Then, for any candidate data element, its contextual information is collected to form an enhanced key vector. Finally, the similarity between the vector and the standard vector is calculated to determine whether the candidate data element is valid. Result/Conclusion The results show that the F1 value is 90.32%, indicating good performance. The shortcomings are the small size of the experimental dataset and the uneven distribution of data element types.

    Key words: Electronic medical record; Data element; ALBERT; Sequence labeling; Token vector

    提交时间:2024-04-26

    版权声明:作者本人独立拥有该论文的版权,预印本系统仅拥有论文的永久保存权利。任何人未经允许不得重复使用。
  • 图表

  • 赵佳奇, 王晓锋, 樊羽羽, 张 伟, 王慧璇, 李金山. 电子病历数据质量及对策研究. 2020. doi: 10.12201/bmr.202011.00008

    武学鸿, 杨峰, 李建华, 徐倩. 融合词向量及词属性推理的中文电子病历实体识别方法. 2021. doi: 10.12201/bmr.202109.00016

    张丽鑫, 孙海霞, 唐明坤, 钱庆. 真实世界电子病历数据评价研究综述. 2021. doi: 10.12201/bmr.202106.00015

    冯凤翔, 任慧玲, 李晓瑛, 王巍洁, 王勖, 张颖. 融合相似度算法与预训练模型的中文电子病历实体映射方法研究. 2023. doi: 10.12201/bmr.202305.00015

    陈婕卿, 竹志超, 张锋, 曾可, 姜会珍, 程振宁. 面向知识图谱构建的中文电子病历命名实体识别方法研究. 2023. doi: 10.12201/bmr.202312.00011

    吴欢, 何昆仑. 基于循证医学和电子病历数据的通用医学知识图谱构建. 2024. doi: 10.12201/bmr.202409.00027

    孙成浩, 刘芬, 赵峰. 基于区块链技术的电子病历系统研究. 2020. doi: 10.12201/bmr.202007.00012

    杨柳, 李小龙, 李善平, 吴义熔. 电子病历数据质量评估指标体系构建研究. 2023. doi: 10.12201/bmr.202303.00021

    方莹, 陈智, 简文华, 郑劲平, 张冬莹. 呼吸专科数据平台的多中心数据集成与应用. 2020. doi: 10.12201/bmr.202009.00009

    邓兰, 杜同舟. 一种高效安全的密文电子病历多关键字检索方案. 2021. doi: 10.12201/bmr.202105.00008

  • 序号 提交日期 编号 操作
    2 2023-12-14

    bmr.202404.00038V2

    下载
    1 2023-12-14

    bmr.202404.00038V1

    下载
  • 公开评论  匿名评论  仅发给作者

引用格式

郭维嘉. 中文电子病历数据元抽取方法. 2024. biomedRxiv.202404.00038

访问统计

  • 阅读量:125
  • 下载量:2
  • 评论数:0

Email This Article

User name:
Email:*请输入正确邮箱
Code:*验证码错误