它是机器学习集成算法中的一种,可称之为自助集成(Bootstrap Aggregation)或袋装法(Bagging)。 在这篇文章中,您将学习使用袋装集成算法和随机森林算法建立预测模型。阅读这篇文章后,您将学到: 用自助法从样本中估计统计量。 用自助集成算法从单个训练数据集中训练多个不同的模型。 强大的分类器——随机森林算法。它...
装袋法是“自助聚合”(boostrap aggregation)的简称。“自助聚合”这个名字能够很好得诠释装袋法的思路:从训练数据集中随机选取子集来跑决策树模型,然后再进行某种形式的加总。装袋法的具体思路取决于子集的构造,以下是常见的几种: 当使用有放回抽样(自助法)抽取随机子集时,该算法被称为“Bagging”(Breiman,1996)。
装袋法虽然可以减少偏差,但是它最重要的意义在于通过自助的方法来减少方差。譬如,在随机森林算法中,减少方差是通过一下两个途径来实现的:第一,在自助选择随机样本时,随机森林相当于构建了很多不同的情形。这样不仅仅有利于减少算法都某个情形(譬如全样本)的以来,而且这些构建出来的情形中,很有可能有接近“未来”所...