各位知友下午好,我是环湖医院数据中心的医生huanhu_data,今天下午和大家分享一下布尔塔算法(Boruta algorithm),布尔塔算法的得名是非常有意思的,布尔塔是个神话魔鬼的名字!确实它在特征工程里的作用也非常的神秘。 这个算法概括起来是这样的: 把原始的行列矩阵,按列特征进行随机的洗牌式再赋值,然后利用随机森林的架构...
布尔塔算法的基本原理是:首先,对原始数据的特征列进行随机打乱,然后通过随机森林模型计算每个特征的重要性。接着,算法会根据z-score评分对特征进行排序,那些原始值得分高于随机分配值的特征,就被识别为重要特征。要实践这个过程,我们可以利用R语言的几个库。例如,使用`library(Boruta)`、`library(mlb...