• 国家药监局综合司 国家卫生健康委办公厅
  • 国家药监局综合司 国家卫生健康委办公厅

中文医疗因果关系抽取数据集 CMedCausal

通讯作者: 陈漠沙, chenmosha.cms@alibaba-inc.com
DOI:10.12201/bmr.202211.00004
声明:预印本系统所发表的论文仅用于最新科研成果的交流与共享,未经同行评议,因此不建议直接应用于指导临床实践。

CMedCausal - A dataset of Chinese medical causal relationship extraction

Corresponding author: Chen Mosha, chenmosha.cms@alibaba-inc.com
  • 摘要:现代医疗很强调解释性,要求医生在为患者诊断时能够给出合理且有根据的诊断结果。在线问诊结果文本中存 在大量关于症状,诊断和治疗等医学概念的因果相关关系的解释,因此从文本中挖掘这些关系对于提升医疗搜索的准 确性和可解释性有重要帮助。基于此,本文构建了一个全新的中文医疗因果关系抽取数据集 CMedCausal (Chinese Medical Causal dataset),数据集定义了 3 类关键的医学因果解释推理关系:因果关系、条件关系和上下位关系, 由 9,153 段医学文本组成,共标注了 79,244 对实体关系。研究人员可基于 CMedCausal 开展医疗因果关系挖掘、医 疗因果解释图谱建设等方向的研究。同时我们也依托第八届中国健康信息处理会议 (CHIP2022) 举办了“医学因果 实体关系抽取”评测比赛,旨在推动中文医学因果关系挖掘技术的发展。

    关键词: 因果关系,关系抽取,解释性

     

    Abstract: Modern medicine emphasizes interpretability and requires doctors to give reasonable, well-founded and con- vincing diagnostic results when diagnosing patients. Therefore, there are a large number of causal correlations in medical concepts such as symptoms, diagnosis and treatment in the text of the results of the inquiry. Explanation of relationships, and mining these relationships from text is of great help in improving the accuracy and inter- pretability of medical searches. Based on this, this paper constructs a new medical causality extraction dataset CMedCausal (Chinese Medical Causal dataset), which defines three key types of medical causal explanation and reasoning relationships: causal relationship, conditional relationship, and hypothetical relationship. It consists of 9,153 medical texts with a total of 79,244 entity relationships annotated. Researchers can carry out research on medical causal relationship mining and medical causal interpretation map construction based on CMedCausal. At the same time, relying on the 8th China Conference on Health Information Processing (CHIP2022), we also held the evaluation task of ”Medical Causal Entity Relationship Extraction”, aiming to promote the development of Chinese medical causal relationship mining technology.

    Key words: causal relationship, relation extraction, interpretability

    提交时间:2022-11-14

    版权声明:作者本人独立拥有该论文的版权,预印本系统仅拥有论文的永久保存权利。任何人未经允许不得重复使用。
  • 图表

  • 杜明斗. 体力活动-胰岛素敏感性因果关系研究. 2022. doi: 10.12201/bmr.202210.00027

    陈剑秋, 黄晓芳, 周祖宏, 廖敏. 基于BERT的电子病历实体关系联合抽取研究. 2022. doi: 10.12201/bmr.202206.00003

    刘忠禹, 姚佳, 俞思伟, 郑子强, 兰蓝, 殷晋. 基于知识抽取的医疗纠纷事件分析及对策研究. 2021. doi: 10.12201/bmr.202110.00022

    庞震, 顾继昱, 吴宇飞, 颜仕星, 李汪洋, 孙越. 一种基于三元组抽取策略解决中医诊治高血压医疗实体提取问题的研究. 2021. doi: 10.12201/bmr.202107.00015

    李文峰, 朱威, 王晓玲, 吴苑斌, 纪文迪, 陈亮, 汤步洲. Text2DT: 面向临床诊疗文本的决策规则抽取技术. 2022. doi: 10.12201/bmr.202211.00002

    兰雨姗, 郑思, 李姣. 机器学习方法在因果推断中混杂因素控制的应用. 2022. doi: 10.12201/bmr.202203.00015

    关陟昊, 单治易, 林紫洛, 杨雪梅, 唐小利. 基于实体共现与引用的潜在共病关系发现. 2022. doi: 10.12201/bmr.202203.00003

    由丽萍, 王世钰, 李朝翻. 基于框架语义分析的社交网络药品不良事件抽取*. 2022. doi: 10.12201/bmr.202211.00006

    任嘉庆, 苏彬彬, 郑晓瑛. 我国中老年人口教育和健康相关关系的分析. 2022. doi: 10.12201/bmr.202111.00018

    包明林, 李侠, 屈孝娥, 李淑娟. 陕西省农村居民健康信息需求与主动获取的关系分析*. 2021. doi: 10.12201/bmr.202104.00012

  • 序号 提交日期 编号 操作
    1 2022-08-30

    bmr.202211.00004V1

    下载
  • 公开评论  匿名评论  仅发给作者

引用格式

李子昊, 陈漠沙, 马镇新, 尹康平, 童毅轩, 谭传奇, 郎珍珍, 汤步洲. 中文医疗因果关系抽取数据集 CMedCausal. 2022. biomedRxiv.202211.00004

推荐引用格式

李子昊,陈漠沙,马镇新,尹康平,童毅轩,谭传奇,郎珍珍,汤步洲,徐健.中文医疗因果关系抽取数据集 CMedCausal[J].医学信息学,2022,43(12):23~27, 31

访问统计

  • 阅读量:927
  • 下载量:22
  • 评论数:0

Email This Article

User name:
Email:*请输入正确邮箱
Code:*验证码错误