362 字
2 分钟
机器学习 (七) : 集成学习
2026-05-18
2026-05-19

不是算法而是思想

集成学习理论#

三个模型都不好,但是集中起来效果就好了
需要学习器好而不同

基本思路:
同质和异质

集成学习的组成:

  • 如何训练基学习器(有无强依赖)
  • 集成方法是啥(根据用途)

个体学习器之间是否存在依赖关系:
什么是依赖关系?
不同用途使用什么方法?

Bagging及随机森林🌟#

并行方式

Bagging

注意训练集是如何产生的.

原理展示:

随机森林

每个基学习器都是决策树

算法原理
请注意森林在生成的时候和决策树不同,是随机地选择m个特征参与比较.

Boosting提升法🌟#

强依赖关系

原理图

算法步骤:两个阶段。
训练集之间有关系.

AdaBoost 原理(调整权重,而不是划分训练集)

梯度提升GBDT 通过代价函数来优化算法 使用不同模型来解决分类和回归问题.

偏差与方差#

为什么会有偏差和方差 偏差:模型的问题 方差:数据的问题

偏差与方差可视化

数学的角度

噪声无法改进,优化泛化误差聚焦于偏差和方差

模型的选择

偏差和方差与过拟合和欠拟合的关系

如何解决

与bagging、boosting的关系

Stacking#

特征拼接

机器学习 (七) : 集成学习
https://dingfengbo.vercel.app/posts/机器学习/07-集成学习/
作者
Eureka
发布于
2026-05-18
许可协议
CC BY-NC-SA 4.0