362 字
2 分钟
机器学习 (七) : 集成学习
不是算法而是思想
集成学习理论
三个模型都不好,但是集中起来效果就好了
需要学习器好而不同

基本思路:
同质和异质

集成学习的组成:
- 如何训练基学习器(有无强依赖)
- 集成方法是啥(根据用途)

个体学习器之间是否存在依赖关系:
什么是依赖关系?
不同用途使用什么方法?

Bagging及随机森林🌟
并行方式
Bagging
注意训练集是如何产生的.

原理展示:

随机森林
每个基学习器都是决策树

算法原理
请注意森林在生成的时候和决策树不同,是随机地选择m个特征参与比较.

Boosting提升法🌟
强依赖关系

原理图

算法步骤:两个阶段。
训练集之间有关系.

AdaBoost
原理(调整权重,而不是划分训练集)

梯度提升GBDT
通过代价函数来优化算法
使用不同模型来解决分类和回归问题.

偏差与方差


为什么会有偏差和方差
偏差:模型的问题
方差:数据的问题

偏差与方差可视化

数学的角度


噪声无法改进,优化泛化误差聚焦于偏差和方差

模型的选择

偏差和方差与过拟合和欠拟合的关系

如何解决

与bagging、boosting的关系

Stacking
特征拼接

机器学习 (七) : 集成学习
https://dingfengbo.vercel.app/posts/机器学习/07-集成学习/