random-forest

如何在结果相似的不同模型之间进行选择?RF、GLM和XGBoost

我是一名医生,试图根据大约1500名患者的数据库建立预测模型,每个患者有60多个参数。我正在处理一个分类问题,并进行了分层分割,并在训练每个时间点的随机森林、GLM和极限梯度增强模型之前使用Boruta算法进行了特征选择。所有模型的AUC约为0.80,RF的Brier评分在0.09-0.17之间,其他两个的Brier得分在0.13-0.23之间。-如何解释我的结果?我的理解是,由于GLM模型表现良好,预测因子之间存在线性关联,但RF在性能上仍略有优势,但其缺点是更“复杂的模型”。

预测此数据集未来值的方法

我将x作为日期,将y作为从0-400随机生成的值。我使用随机森林回归器进行性能调整,得到6500毫秒。它不是历史数据,而是随机生成的。我还想在数据集中包含季节性。如何解决这个问题。

我如何在数千种变体中为我的ML模型选择最佳设置?

我使用MLRandomForest模型,我希望尽可能地设置它的所有重要参数。因此,为此,我在多个循环中尝试所有可能的变量并保存它们的结果。当我完成时,我只是查看结果,哪种设置是最好的。因此,我向您提出了两个问题:做我正在做的事情是好的吗?我的意思是通过所有变体来找到最佳设置由于我的内存限制,可以在某个网站上完成吗?在线免费编译器,我可以在其上加载数据文件,并要求他们为我计算变量。