通过学习算法,反复学习恶习得到一系列弱分类器,将这些弱分类器组合起来构成一个强分类器。 也就是说,假设有很多数据data使用逻辑回归或SVM算法用分类器data对当前数据集进行分类。 如果在某个数据通过第一个分类器后发现正确,而另一个数据通过第一个分类器后发现数据分类错误,则可以在进入下一轮之前对这些数据执行更改权重操作。 也就是说,上次分类对象的数据的权重变小,上次分类错误的数据的权重变大。最后用n个分类器进行分类,得到结果集
为了解决问题,如何将弱分类器(如上所述每次分类时通过的每个分类器都是弱分类器)合并为一个强分类器? 增大分类误差小瑞分类权重,减小分类误差大的弱识别器权重
以乳腺癌为例比较三种算法
执行结果
代码中出现的是x的值
第一棵树可视化
执行结果
第二棵树可视化
第三课树可视化
3.1.2gini系数的计算
在此计算的x值也就是v的值
从上图可以看出,第一棵树的X=2.5的由来方式进行了如下编码
3.1.3求误差
3.1.4计算初始学习器权重
3.1.5与新样品的权重
根据以下执行结果可知,在预测结果与原始数据不同的情况下,与该样本对应的权重也变大; 相反,如果预测正确,权重就会变小
即第二课数计算
3.2.1 gini系数的计算
3.2.2分割阈值
3.2.3计算误差
3.2 .计算第4个弱学习器的权重
3.2.5与新样本的权重
3.3.1 gini系数
3.3.2分割阈值
3.3.3计算误差
3.3 .计算第4个弱学习器的权重
3.3.5新权值
发表评论