中文电子病历数据元抽取方法

郭维嘉

河南省图书馆;

通讯作者: 郭维嘉, guowj2022@163.com

DOI：10.12201/bmr.202404.00038

声明：预印本系统所发表的论文仅用于最新科研成果的交流与共享，未经同行评议，因此不建议直接应用于指导临床实践。

Method for Extracting Data Elements from Chinese Electronic Medical Records

Guo Weijia

Henan Provincial Library ;

Corresponding author: Guo Weijia, guowj2022@163.com

摘要：目的/意义从电子病历中抽取遵循国家标准的数据元，有助于实现电子病历数据的细粒度共享。方法/过程提出一种中文电子病历数据元抽取方法。首先利用ALBERT、BiLSTM和CRF模型对电子病历进行序列标注，并根据标注结果生成一组候选数据元；然后针对每个候选数据元，采集其上下文信息并形成一个增强的键向量；最后计算该向量与标准向量之间的相似度，据此判断候选数据元是否有效。结果/结论结果显示，该方法的F1值为90.32%，效果较好；不足之处是实验数据集规模较小且数据元类型分布不均衡。

关键词： 电子病历; 数据元; ALBERT; 序列标注; Token向量

Abstract: Purpose/Significance Extracting data elements that comply with national standards from EMR (Electronic Medical Records) can help to achieve fine-grained sharing of EMR data. Method/Process This paper proposes a method for extracting data elements from Chinese EMRs. Firstly, it uses the ALBERT, BILSTM and CRF models to perform sequence labeling on EMRs, and generates a set of candidate data elements based on labeling results. Then, for any candidate data element, its contextual information is collected to form an enhanced key vector. Finally, the similarity between the vector and the standard vector is calculated to determine whether the candidate data element is valid. Result/Conclusion The results show that the F1 value is 90.32%, indicating good performance. The shortcomings are the small size of the experimental dataset and the uneven distribution of data element types.

Key words: Electronic medical record; Data element; ALBERT; Sequence labeling; Token vector

提交时间：2024-04-26

版权声明：作者本人独立拥有该论文的版权，预印本系统仅拥有论文的永久保存权利。任何人未经允许不得重复使用。
html
图表
赵佳奇, 王晓锋, 樊羽羽, 张伟, 王慧璇, 李金山. 电子病历数据质量及对策研究. 2020. doi: 10.12201/bmr.202011.00008

武学鸿, 杨峰, 李建华, 徐倩. 融合词向量及词属性推理的中文电子病历实体识别方法. 2021. doi: 10.12201/bmr.202109.00016

张丽鑫, 孙海霞, 唐明坤, 钱庆. 真实世界电子病历数据评价研究综述. 2021. doi: 10.12201/bmr.202106.00015

冯凤翔, 任慧玲, 李晓瑛, 王巍洁, 王勖, 张颖. 融合相似度算法与预训练模型的中文电子病历实体映射方法研究. 2023. doi: 10.12201/bmr.202305.00015

陈婕卿, 竹志超, 张锋, 曾可, 姜会珍, 程振宁. 面向知识图谱构建的中文电子病历命名实体识别方法研究. 2023. doi: 10.12201/bmr.202312.00011

吴欢, 何昆仑. 基于循证医学和电子病历数据的通用医学知识图谱构建. 2024. doi: 10.12201/bmr.202409.00027

孙成浩, 刘芬, 赵峰. 基于区块链技术的电子病历系统研究. 2020. doi: 10.12201/bmr.202007.00012

杨柳, 李小龙, 李善平, 吴义熔. 电子病历数据质量评估指标体系构建研究. 2023. doi: 10.12201/bmr.202303.00021

方莹, 陈智, 简文华, 郑劲平, 张冬莹. 呼吸专科数据平台的多中心数据集成与应用. 2020. doi: 10.12201/bmr.202009.00009

邓兰, 杜同舟. 一种高效安全的密文电子病历多关键字检索方案. 2021. doi: 10.12201/bmr.202105.00008

序号	提交日期	编号	操作
2	2023-12-14	bmr.202404.00038V2	下载
1	2023-12-14	bmr.202404.00038V1	下载

公开评论匿名评论仅发给作者

引用格式

郭维嘉. 中文电子病历数据元抽取方法. 2024. biomedRxiv.202404.00038

访问统计

阅读量：125
下载量：2
评论数：0

中文电子病历数据元抽取方法

通讯作者: 郭维嘉, guowj2022@163.com

DOI：10.12201/bmr.202404.00038

Method for Extracting Data Elements from Chinese Electronic Medical Records

Corresponding author: Guo Weijia, guowj2022@163.com

引用格式

访问统计

分享

Email This Article