Bagging（Bootstrap Aggregation）是一种集成学习方法，主要用于提高模型的准确性并减少过拟合。Bagging的基本思想是通过对原始数据集进行多次有放回的抽样（即Bootstrap抽样），生成多个训练集，并在每个训练集上训练一个独立的基学习器（通常是决策树）。最后，通过集成这些基学习器的预测结果来获得最终预测。具体来说，Bagging包括以下几个步骤：

1. Bootstrap抽样

从原始数据集中随机选择多个子集，每个子集的大小与原始数据集相同，但选择时是有放回的。这意味着同一数据点可能在不同的子集中出现多次，或者根本不出现在某些子集中。
每个子集相当于一个不同的训练集。

2. 训练多个基学习器

在每个Bootstrap子集上训练一个独立的模型，通常是弱模型，如决策树（也可以使用其他类型的模型）。这些基学习器的训练是独立的，因此它们可以并行训练。
不同的训练集导致不同的学习器，因此每个基学习器可能会学到数据的不同特征。

3. 集成预测

对于回归任务，最终预测是所有基学习器预测结果的平均值。
对于分类任务，最终预测是通过投票方式来决定的（即多数学习器的预测决定最终的类别）。

Bagging的优点：

减少过拟合：通过训练多个模型并将它们的预测结果结合，可以减少单个模型对噪声的过拟合。
提高准确性：通过集成多个学习器，Bagging通常可以提高模型的准确性，尤其是在弱学习器的情况下（如决策树）。
减少方差：由于多个基学习器的预测是独立的，所以集成结果通常比单个学习器的预测更加稳定，减少了方差。

Bagging的缺点：

计算开销大：由于需要训练多个模型，并且每个模型都需要在不同的训练集上训练，所以计算资源和时间的消耗较大。
解释性差：与单一模型相比，集成方法的模型通常较难解释。

典型应用：

随机森林（Random Forest）：随机森林是Bagging方法的一个特例，使用决策树作为基学习器，并在每个节点上随机选择特征来训练决策树。随机森林在很多实际应用中表现出色。

总结：

Bagging通过构建多个基学习器并结合它们的预测，能够显著提高模型的性能，尤其是对高方差模型（如决策树）来说，效果尤为显著。在应用时，需要权衡计算开销和模型的准确性，但通常对于提高模型的鲁棒性和预测能力有很大帮助。

探索

Akiyama's blog

Bagging