• 国家药监局综合司 国家卫生健康委办公厅
  • 国家药监局综合司 国家卫生健康委办公厅

一种基于三元组抽取策略解决中医诊治高血压医疗实体提取问题的研究

通讯作者: 孙越, sunyue@nhei.cn
DOI:10.12201/bmr.202107.00015
声明:预印本系统所发表的论文仅用于最新科研成果的交流与共享,未经同行评议,因此不建议直接应用于指导临床实践。

A study on the solution of the problem of extracting essential substance of TCM diagnosis and treatment of hypertension based on triple extraction strategy

Corresponding author: SunYue, sunyue@nhei.cn
  • 摘要:目的 提出一种基于三元组信息抽取策略的新型实体提取模型,使用关系抽取的方法解决覆盖实体及非连续实体抽取问题,解决传统命名实体识别方法应用于高血压中医电子病历医疗实体识别时出现的实体离散问题,为中医医疗实体的自动化抽取提供方法学参考。方法 本文研发针对中医特定场景的预训练模型BERT_TCM,之后使用2000例高血压中医病历作为训练和测试数据,对比分析了数个关系抽取模型:常规关系抽取模型BiGRU模型;基于BERT_TCM的联合抽取模型;引入FGM、PGD对抗训练后基于BERT_TCM建立的CASREL模型。结果 使用精确率、召回率、F1值为评估指标。实验结果发现引入PGD对抗训练后基于BERT_TCM建立的CASREL模型综合性能最高,精确率为0.8887,召回率为0.8841,F1值为0.8932。结论 提出的基于三元组抽取策略的高血压医疗实体提取模型能够有效解决问题;针对中医特定场景的BERT_TCM在中医高血压病历关系抽取任务具有更好的性能;联合抽取模型比BiGRU模型显著提高了模型性能;CASREL模型的性能比联合抽取模型更加优越;引入对抗训练技术能够有效提升模型鲁棒性。

    关键词: 联合抽取、CASREL抽取、命名实体识别、高血压、中医医学病例

     

    Abstract: Objective To propose a new entity extraction model based on triplet information extraction strategy to solve the problem of entity dispersion when traditional named entity recognition method is applied to TCM medical entity recognition, and to provide methodological reference for automatic extraction of TCM medical entity. Methods Pre-trained BERT for TCM domain were established in this paper. And then, 2000 cases of TCM hypertension were selected to train and test several relational extraction models: conventional BiGRU model; The joint extraction model based on BERT_TCM; CASREL model based on BERT_TCM and FGM/PGD adversarial training. Results Precision, recall and F1-score were used as evaluation metrics. And CASREL model based on BERT_TCM and PGD work best, with a result of precision 0.8887, recall 0.8841 and F1-score 0.8932. Conclusion Based on triple extraction strategy of hypertension medical entity extraction model can effectively solve the problem; BERT_TCM for TCM specific scene has better performance in TCM hypertension relationship extraction task; The joint extraction model significantly improves the performance of the model compared with BiGRU model. CASREL model has better performance than joint extraction model. Introduction of confrontation training technology can effectively improve model robustness.

    Key words: Joint extraction、Casrel extraction、Named entity recognition、hypertension、Cases of traditional Chinese Medicine

    提交时间:2021-08-26

    版权声明:作者本人独立拥有该论文的版权,预印本系统仅拥有论文的永久保存权利。任何人未经允许不得重复使用。
  • 图表

  • 胡海洋, 赵从朴, 马琏, 姜会珍, 张晶, 朱卫国. 基于注意力机制和DGCNN的中文医疗命名实体识别. 2021. doi: 10.12201/bmr.202102.00004

    郭哲韬, 石文丽, 杨涛. 基于语音识别的中医临床诊疗智能语音助理的设计与实现. 2021. doi: 10.12201/bmr.202110.00013

    刘忠禹, 姚佳, 俞思伟, 郑子强, 兰蓝, 殷晋. 基于知识抽取的医疗纠纷事件分析及对策研究. 2021. doi: 10.12201/bmr.202110.00022

    王昕. 杨志宏治疗肝阳上亢型高血压性眩晕的临床经验. 2020. doi: 10.12201/bmr.202004.00008

    武学鸿, 杨峰, 李建华, 徐倩. 融合词向量及词属性推理的中文电子病历实体识别方法. 2021. doi: 10.12201/bmr.202109.00016

    周海, 彭斐灵, 韦昌法. 中医诊断学辨证知识图谱构建研究与实践. 2020. doi: 10.12201/bmr.202004.00036

    郭炫志, 周武洁, 尚欣, 连春华, 詹开明, 林隆永. 基于 UNILM 的中医文献问题条件生成模型. 2021. doi: 10.12201/bmr.202110.00036

    张艺然, 李强, 肖勇, 车玉霞, 朱佳卿. 我国中医药信息标准发展历程及展望. 2021. doi: 10.12201/bmr.202107.00008

    肖勇, 沈绍武. 基于PEST分析的“互联网+中医药健康服务”发展的思考. 2020. doi: 10.12201/bmr.202011.00005

    舒亚玲①, 赵移畛①, 李慧①, 金琰①, 肖勇②. 中医馆健康信息平台建设与发展的思考. 2021. doi: 10.12201/bmr.202107.00009

  • 序号 提交日期 编号 操作
    1 2021-07-27

    bmr.202107.00015V1

    下载
  • 公开评论  匿名评论  仅发给作者

引用格式

庞震, 顾继昱, 吴宇飞, 颜仕星, 李汪洋, 孙越. 一种基于三元组抽取策略解决中医诊治高血压医疗实体提取问题的研究. 2021. biomedRxiv.202107.00015

访问统计

  • 阅读量:803
  • 下载量:6
  • 评论数:0

Email This Article

User name:
Email:*请输入正确邮箱
Code:*验证码错误