• 国家药监局综合司 国家卫生健康委办公厅
  • 国家药监局综合司 国家卫生健康委办公厅


通讯作者: 乔琼, qiaoqiong13 @126.com

Establishing a model based on data mining for predicting the recurrence factor of breast cancer

Corresponding author: QIAO Qiong, qiaoqiong13 @126.com
  • 摘要:目的:本研究是对乳腺癌复发因素的公开数据源进行预测模型构建,寻求最优化的算法以及乳腺癌复发的特征参数。方法:采用UCI数据库中乳癌复发的数据库,使用SPSS Modeler(18.0)对其进行预测模型的建立。透过Modeler自动分类器基础筛选后,选出准确率排名前5的算法进行10次随机采样,并且用受试者工作特征(ROC)曲面下的面积(AUC)作为模型评价。结果:最优算法为神经网路结合多层感知器(MLP),其训练集的AUC为84%,测试集的AUC为83% 。且肿瘤临床分期可作为本数据源中乳腺癌复发的重要特征参数。结论:针对乳癌复发因素的数据源其最佳预测模型算法为神经网路,其复发的可能因素为肿瘤程度临床分期的严重程度,此模型建立可为乳腺癌复发情况的评判提供辅助决策支持。

    关键词: 乳腺癌、复发因素、预测模型、SPSS Modeler、神经网路


    Abstract: Objective:The purpose of this study was to set up the predicting model for the recurrence factor of breast cancer from the open machine learning database(https://www.openml.org/d/13), to find out the best algorithm and the recurrence factor of breast cancer. Methods:By using the SPSS Modeler(18.0) software to establish the model. After the auto-classifier, picking up the algorithms which were ranked top 5 of total accuracy processed the random sampling ten times. Model performance was evaluated by using areas under the receiver operating characteristic curve(AUC) Results:The results showed that the proper algorithm was an artificial neural network with a multilayer perceptron. The AUC of the training data was 0.869, and the AUC of the testing data was 0.894. The clinical-stage of breast cancer could be the main reason for the recurrence. Conclusion:The best algorithm for the database of breast cancer recurrence’s factor was the artificial neural network, the recurrent factor could be the stage of the breast cancer, and the model could provide support for predicting recurrence in breast cancer.

    Key words: Breast; cancer, Recurrence; factor, Model; prediction, SPSS; Modeler, Artificial; neural network


  • 图表

  • 朱笑笑, 钱爱兵. 基于百度指数的乳腺癌防治健康信息网络关注特征分析. 2020. doi: 10.12201/bmr.201906.00001

    詹海侠, 胡东, 张文婷, 顾影. 集束化护理模式对乳腺癌改良根治术后患者肩关节功能恢复及生命质量的影响. 2020. doi: 10.12201/bmr.202004.00015

    金丽珠, 葛辉, 郭青, 李少琼, 杜雪杰. 基于气象因素和机器学习的流感疫情预警研究. 2021. doi: 10.12201/bmr.202012.00008

    闫慈, 王鹏, 杨越, 任劲, 吴睿豪, 管音, 张茜. 省级肿瘤大数据中心的规划与建设. 2020. doi: 10.12201/bmr.202009.00002

    翟兴, 李国梁, 郭凤英. 中医院校大数据管理与应用专业课体系构建研究*. 2020. doi: 10.12201/bmr.202008.00008

    魏景明, 高奇隆, 黄敏卓, 董恒进. 基于DEA模型的浙江省县域医共体运行效率研究. 2021. doi: 10.12201/bmr.202005.00252

    戴维, 冯文红, 张远强, 牟云飞, 谢少华, 比确子拉, 王雅琴, 廖佳, 魏星, 李强, 石丘玲. 建立基于电子化患者报告结局的症状管理系统的实践. 2020. doi: 10.12201/bmr.202004.00023

    朱宇凡, 赵欣, 杨志强, 钟厚成, 蔡林, 谢远龙. “人工智能+医学”复合型人才培养展望. 2020. doi: 10.12201/bmr.202008.00010

    陈荃, 雷行云, 高星, 胡红濮. 基于行为理论的老年糖尿病患者移动健康干预策略构建研究. 2020. doi: 10.12201/bmr.202005.00245

  • 序号 提交日期 编号 操作
    1 2020-09-17


  • 公开评论  匿名评论  仅发给作者


黄昱诚, 杨旭明, 乔琼. 基于数据挖掘的乳腺癌复发因素预测模型构建. 2020. biomedRxiv.202009.00011


  • 阅读量:3717
  • 下载量:3
  • 评论数:0

Email This Article

User name: