宫小翠, 安新颖. 面向医学科技文献分类的语义特征增强研究*. 2024. biomedRxiv.202411.00088
面向医学科技文献分类的语义特征增强研究*
通讯作者: 安新颖, an.xinying@imicams.ac.cn
DOI:10.12201/bmr.202411.00088
Research on Semantic Feature Enhancement for Medical Literature Classification
Corresponding author: anxinying, an.xinying@imicams.ac.cn
-
摘要:目的/意义 医学科技文献快速增长给文献分类和利用提出新的挑战,构建有效的医学科技文献自动分类方法对于大批量分类工作开展极为重要。方法/过程 以各医院发表的医学论文为研究对象,借助MeSH词表的同义词和语义层级结构实现对概念信息的语义特征增强,使用BERT模型进行微调训练和测试评估,并与随机森林算法的分类结果进行对比。结果/结论 十折交叉验证法结果显示,基于MeSH词表和BERT模型的医学科技文献分类方法对医学科技文献自动分类的精确率、召回率、F1值分别为95.42%,93.61%,94.47%,优于随机森林算法及未进行特征增强分类结果,该方法表现出一定的准确性和有效性,具有一定的可应用性。
Abstract: Purpose/Significance The rapid growth of medical literature poses new challenges for literature classification,it is very important to build an effective automatic classification model of medical literature.Method/Process Using medical literature as data source,this article utilizes the synonyms and hierarchical structure of the MeSH vocabulary to enhance the features of concept information,uses the BERT model for fine-tuning and testing,and compares the classification results with random forest algorithm.Result/Conclusion The results of the ten-fold cross-validation method show that the precision,recall and F1 score of the medical literature classification model based on Mesh and BERT are 95.42%,93.61%,94.47%, which are better than the classification results of random forest and pure BERT.The medical literature classification model based on Mesh and BERT shows high accuracy and effectiveness, and has certain applicability.
Key words: medical literature; MeSH; BERT; automatic classification提交时间:2024-11-29
版权声明:作者本人独立拥有该论文的版权,预印本系统仅拥有论文的永久保存权利。任何人未经允许不得重复使用。 -
图表
-
赵从朴, 袁达, 朱溥珏, 周炯, 陈政, 彭华. 基于BERT的医疗安全事件智能分类研究与实践. 2023. doi: 10.12201/bmr.202312.00021
张胜发, 罗葳, 马玉环, 张晓宇, 赵远志, 周伟. 面向开放应用的生物医学大数据分类研究. 2024. doi: 10.12201/bmr.202411.00082
李晓瑛, 蔡妙芝, 李军莲, 任慧玲, 冀玉静, 邓盼盼, 夏光辉. 面向文献组织的新冠肺炎知识图谱构建研究. 2020. doi: 10.12201/bmr.202010.00840
王娟, 侯丽. 医疗健康领域问题分类探析. 2023. doi: 10.12201/bmr.202312.00023
于诗睿, 李爱花, 林紫洛, 陈逸菲, 唐小利. 基于主题模型的科技文献主题演化分析方法优化研究综述. 2023. doi: 10.12201/bmr.202305.00016
王娟, 侯丽, 孙月萍, 李佳明, 杨丽, 董良广, 李云汉. 面向儿科医学试题的答案解析自动推荐方法研究. 2024. doi: 10.12201/bmr.202409.00026
张雯, 张建同, 郭雨姗. 基于BERT和双通道语义协同的在线医疗评论情感分析. 2024. doi: 10.12201/bmr.202407.00042
朱韶华, 李艳红, 张迅, 黄海量. 基于高质量文献的医学肿瘤学领域研究前沿识别研究. 2023. doi: 10.12201/bmr.202312.00010
张胜发, 马玉环, 张敬晨, 王嘉阳, 孙婧雯, 张月, 张晓宇, 周伟. 基于数据安全的健康医疗科学数据分级指南研究. 2023. doi: 10.12201/bmr.202303.00026
刘彬, 肖晓霞, 邹北骥, 周展, 郑立瑞, 谭建聪. 融合汉字部首的BERT-BiLSTM-CRF中医医案命名实体识别模型. 2023. doi: 10.12201/bmr.202303.00004
-
序号 提交日期 编号 操作 1 2024-09-26 bmr.202411.00088V1
下载 -
-
公开评论 匿名评论 仅发给作者
引用格式
访问统计
- 阅读量:243
- 下载量: 0
- 评论数:0