• 国家药监局综合司 国家卫生健康委办公厅
  • 国家药监局综合司 国家卫生健康委办公厅

基于预训练语言模型的公众健康问句分类

通讯作者: 谢甲琦, 66350354@qq.com
DOI:10.12201/bmr.202101.00017
声明:预印本系统所发表的论文仅用于最新科研成果的交流与共享,未经同行评议,因此不建议直接应用于指导临床实践。

Leveraging Pre-trained Language Model for Consumer Health Question Classification

Corresponding author: xie jia qi, 66350354@qq.com
  • 摘要:数据挖掘近年来应用在越来越多的实际场景中,在智能化医学信息系统中也有非常多的应用,如面向互联网问诊应用场景下的公众健康问句理解。当前公众在互联网上的提问记录往往为自然语言记录,是非结构化、非标准化的。由于这类数据是没有标注的,对其进行数据挖掘十分困难,且往往无法得到性能较好的模型和准确的预测结果。因此,在中华医学会医学信息学分会举办的“公众健康问句分类”任务算法评测大赛中,我们尝试使用多种不同的预训练语言模型,包括BERT-base,BERT-wwm和RoBERTa等等。使用评测任务组织方发布的5000条标注数据集在以上预训练语言模型上进行调优,可以获得多个性能较好的模型。与此同时,受到对抗训练的启发,对模型采用了对抗训练策略,显著提高了模型预测的稳定性。由于category_C在训练集中的样本非常少,模型很难学习到其判别规律。因此我们设计了一种规则挖掘的方法,通过人工经验来辅助模型判断类别C。结合人工规则和深度学习模型的方法进一步提升了模型性能,最终取得了Macro F1 0.69(10/149)的成绩。

    关键词: 公众健康,问句分类,深度学习,预训练语言模型,对抗训练

     

    Abstract: Data mining has been widely applied in various of practical scenario recently, especially in the smart medical field. The data mining algorithms for medical are crucial for maximizing the usage of medical data, e.g. the health question classification. The health question classification aims to detect different questions from a given sentence, accuratelySdistinguish various questions is important for smart medical. The current medical data existed in the web is unstructured and non-standardized. Since the above data has no label, it is hard for us to discover some useful information from the above data. Besides, without high quality labeled data, training a good classifier is really hard. In this paper, we leverage various pre-trained language model to solve the health question classification task, including BERT-base, BERT-wwm and RoBERTa. By fine-tuning the pre-trained models using the labeled data, we can obtain some neural classifiers for the task. Beside, fine-tuning the pre-trained models may provide unstable results, which may have negative influence when applying to the practical scenario. Inspired by adversarial training, we employ this technique to improve the stability of our model. Meanwhile, category_C is rare in the training set, so we design a rule-based method to detect category_C, integrating the neural and human knowledge at the same time, and further improve the model’s performance. The experimental results show that our method can achieve good performance on the leaderboard.

    Key words: Consumer Health, Question Classification, Deep Learning, Pre-trained Language Model, Adversarial Training

    提交时间:2021-05-27

    版权声明:作者本人独立拥有该论文的版权,预印本系统仅拥有论文的永久保存权利。任何人未经允许不得重复使用。
  • 图表

  • 徐晓巍, 郭海红, 李姣. 面向公众健康问句分类数据挖掘算法评测研究. 2021. doi: 10.12201/bmr.202101.00018

    顾耀文, 李姣. 基于无监督深度学习的电子健康档案数据挖掘技术研究进展. 2021. doi: 10.12201/bmr.202104.00013

    康一帅, 邵陈杰. 基于统一语言模型的中医文献问题生成算法. 2022. doi: 10.12201/bmr.202110.00044

    郭炫志, 周武洁, 尚欣, 连春华, 詹开明, 林隆永. 基于 UNILM 的中医文献问题条件生成模型. 2021. doi: 10.12201/bmr.202110.00036

    郭梦颖, 周易, 和静淑, 潘佳欣, 孙靖凯, 黄炜. 基于卡片分类法的中医医院微信公众号服务平台的功能分类研究. 2020. doi: 10.12201/bmr.202010.00833

    贾李蓉. 中医药自动问答系统的问题理解研究. 2021. doi: 10.12201/bmr.202101.00002

    刘晶, 朱彦, 李宗友, 林东飞, 刘丽红, 史冬云. SNOMED CT疾病分类及概念模型研究. 2021. doi: 10.12201/bmr.202110.00005

    刘庆金, 王锐, 苗元青. 基于深度学习的无症状心肌缺血动态心电图智能检测研究. 2021. doi: 10.12201/bmr.202111.00009

    李梦翔, 许扬, 陈磊. 在线智能预问诊系统的构建与应用研究. 2021. doi: 10.12201/bmr.202110.00026

    虢毅, 龚李越, 胡德华. 基于整合模型的在线健康社区用户持续使用意愿的影响因素研究. 2021. doi: 10.12201/bmr.202110.00041

  • 序号 提交日期 编号 操作
    1 2021-01-14

    bmr.202101.00017V1

    下载
  • 公开评论  匿名评论  仅发给作者

引用格式

谢甲琦, 李政. 基于预训练语言模型的公众健康问句分类. 2021. biomedRxiv.202101.00017

推荐引用格式

谢甲琦,李政.基于预训练语言模型的公众健康问句分类[J].医学信息学,2021,42(12):33~36, 43

访问统计

  • 阅读量:725
  • 下载量:1
  • 评论数:0

Email This Article

User name:
Email:*请输入正确邮箱
Code:*验证码错误