我是一名医生,试图根据大约1500名患者的数据库建立预测模型,每个患者有60多个参数。
我正在处理一个分类问题(1、3、6和12个月的死亡率),并进行了分层分割(70次训练/30次测试),并在训练每个时间点的随机森林、GLM和极限梯度增强模型之前使用Boruta算法进行了特征选择。
所有模型的AUC约为0.80(RF模型稍好),RF的Brier评分在0.09-0.17之间,其他两个的Brier得分在0.13-0.23之间。
因此,根据Brier评分,RF模型似乎稍有优势,但我想知道:
-我应该做更多的绩效评估吗?哪些以及为什么?
-如何解释我的结果?我的理解是,由于GLM模型表现良好,预测因子之间存在线性关联,但RF在性能上仍略有优势,但其缺点是更“复杂的模型”。
我计划使用不同的数据集进行外部验证,但到目前为止,我很想了解其他测量是否可以揭示不同模型的优势,而且我确信我缺少了一些东西,因为我是这个领域的新手,很想听到任何建议/意见。