• 国家药监局综合司 国家卫生健康委办公厅
  • 国家药监局综合司 国家卫生健康委办公厅

基于BERT的电子病历实体关系联合抽取研究

通讯作者: 黄晓芳, 448401501@qq.com
DOI:10.12201/bmr.202206.00003
声明:预印本系统所发表的论文仅用于最新科研成果的交流与共享,未经同行评议,因此不建议直接应用于指导临床实践。

Joint extraction of Chinese EMR entity relationship based on bert

Corresponding author: huangxiaofang, 448401501@qq.com
  • 摘要:电子病历是医护人员在医疗过程中产生的患者的一些临床信息,包含了大量与患者健康相关的医疗实体,如何在非结构化的病历文本中高效的抽取出医疗信息,成为自然语言处理(NLP)领域的研究热点。当前实体关系联合抽取模型主要通过识别实体,再提取关系进行分类,然而这种方法会受到冗余实体对的影响,而且不能很好地捕捉到实体与关系之间的内在联系,为了解决这些问题,本文采用了一种级联解码器来进行关系提取,首先通过头实体识别模块识别头实体,再通过关系特定尾实体标注模块针对不同关系识别尾实体。此外,电子病历实体的特点主要为实体的高密度分布以及实体间关系的交叉互联,针对这一特点,本文通过采用指针标注方法来解决电子病历文中存在的实体嵌套问题,同时改进尾实体关系特定标注器模块来解决实体间关系交叉互联的问题。对比实验选用目前主流的2个模型作为基线,相继在CHIP2020数据集中进行验证,本文方法的F值取得了3个百分点的提升。实验表明,本文提出的方法对于关系抽取是非常有效的。

    关键词: 自然语言处理;中文电子病历关系抽取联合抽取模型

     

    Abstract: Electronic medical record is some clinical information of patients generated by medical staff in the medical process, including a large number of medical entities related to patients health. How to extract medical information efficiently from unstructured medical record text has become a research hotspot in the field of natural language processing (NLP). At present, the joint entity relationship extraction model mainly identifies entities and then extracts relationships for classification. However, this method will be affected by redundant entities, and can not well capture the internal relationship between entities and relationships. In order to solve these problems, this paper uses a cascade decoder for relationship extraction, First, the head entity is identified by the head entity identification module, and then the tail entity is identified for different relationships by the relationship specific tail entity annotation module. In addition, the characteristics of EMR entities are mainly the high-density distribution of entities and the cross interconnection of relationships between entities. In view of this characteristic, this paper uses the pointer annotation method to solve the problem of entity nesting in EMR documents, and improves the tail entity relationship specific annotator module to solve the problem of cross interconnection of relationships between entities. The comparative experiment selects two mainstream models as the baseline and successively verifies them in the chip2020 data set. The F value of this method has increased by 3 percentage points. Experiments show that the proposed method is very effective for relationship extraction.

    Key words: natural language process; Chinese EMR; relation extraction; joint extraction model

    提交时间:2022-06-01

    版权声明:作者本人独立拥有该论文的版权,预印本系统仅拥有论文的永久保存权利。任何人未经允许不得重复使用。
  • 图表

  • 李子昊, 陈漠沙, 马镇新, 尹康平, 童毅轩, 谭传奇, 郎珍珍, 汤步洲. 中文医疗因果关系抽取数据集 CMedCausal. 2022. doi: 10.12201/bmr.202211.00004

    庞震, 顾继昱, 吴宇飞, 颜仕星, 李汪洋, 孙越. 一种基于三元组抽取策略解决中医诊治高血压医疗实体提取问题的研究. 2021. doi: 10.12201/bmr.202107.00015

    刘忠禹, 姚佳, 俞思伟, 郑子强, 兰蓝, 殷晋. 基于知识抽取的医疗纠纷事件分析及对策研究. 2021. doi: 10.12201/bmr.202110.00022

    武学鸿, 杨峰, 李建华, 徐倩. 融合词向量及词属性推理的中文电子病历实体识别方法. 2021. doi: 10.12201/bmr.202109.00016

    李文峰, 朱威, 王晓玲, 吴苑斌, 纪文迪, 陈亮, 汤步洲. Text2DT: 面向临床诊疗文本的决策规则抽取技术. 2022. doi: 10.12201/bmr.202211.00002

    由丽萍, 王世钰, 李朝翻. 基于框架语义分析的社交网络药品不良事件抽取*. 2022. doi: 10.12201/bmr.202211.00006

    陈华芳, 向菲. 护理人员对电子病历患者隐私的保护行为影响因素. 2020. doi: 10.12201/bmr.202009.00013

    关陟昊, 单治易, 林紫洛, 杨雪梅, 唐小利. 基于实体共现与引用的潜在共病关系发现. 2022. doi: 10.12201/bmr.202203.00003

    康一帅, 邵陈杰. 基于统一语言模型的中医文献问题生成算法. 2022. doi: 10.12201/bmr.202110.00044

    谢甲琦, 李政. 基于预训练语言模型的公众健康问句分类. 2021. doi: 10.12201/bmr.202101.00017

  • 序号 提交日期 编号 操作
    1 2022-01-05

    bmr.202206.00003V1

    下载
  • 公开评论  匿名评论  仅发给作者

引用格式

陈剑秋, 黄晓芳, 周祖宏, 廖敏. 基于BERT的电子病历实体关系联合抽取研究. 2022. biomedRxiv.202206.00003

推荐引用格式

黄晓芳,陈剑秋,周祖宏,廖敏.基于BERT的电子病历实体关系联合抽取研究[J].医学信息学,2023,44(2):28~34

访问统计

  • 阅读量:884
  • 下载量:12
  • 评论数:0

Email This Article

User name:
Email:*请输入正确邮箱
Code:*验证码错误