集成学习入门与实战:原理、算法与应用


目录

• 第1章 为什么需要集成学习

• 1.1 混合训练数据

• 1.2 混合模型

• 1.3 混合组合

• 1.4 本章小结

• 第2章 混合训练数据

• 2.1 决策树

• 2.2 数据集采样

• 2.2.1 不替换采样(WOR)

• 2.2.2 替换采样(WR)

• 2.3 Bagging(装袋算法)

• 2.3.1 k重交叉验证

• 2.3.2 分层的k重交叉验证

• 2.4 本章小结

• 第3章 混合模型

• 3.1 投票集成

• 3.2 硬投票

• 3.3 均值法/软投票

• 3.4 超参数调试集成

• 3.5 水平投票集成

• 3.6 快照集成

• 3.7 本章小结

• 第4章 混合组合

• 4.1 Boosting(提升算法)

• 4.1.1 AdaBoost(自适应提升算法)

• 4.1.2 Gradient Boosting(梯度提升算法)

• 4.1.3 XGBoost(极端梯度提升算法)

• 4.2 Stacking(堆叠算法)

• 4.3 本章小结

• 第5章 集成学习库

• 5.1 ML - 集成学习

• 5.1.1 多层集成

• 5.1.2 集成模型的选择

• 5.2 通过Dask扩展XGBoost

• 5.2.1 Dask数组与数据结构

• 5.2.2 Dask - ML

• 5.2.3 扩展XGBoost

• 5.2.4 微软LightGBM

• 5.2.5 AdaNet

• 5.3 本章小结

• 第6章 实践指南

• 6.1 基于随机森林的特征选择

• 6.2 基于集成树的特征转换

• 6.3 构建随机森林分类器预处理程序

• 6.4 孤立森林进行异常点检测

• 6.5 使用Dask库进行集成学习处理

• 6.5.1 预处理

• 6.5.2 超参数搜索

• 6.6 本章小结

• 致谢

读书摘要与主要内容介绍

《集成学习入门与实战:原理、算法与应用》是一本全面介绍集成学习的专业书籍,它深入探讨了集成学习的理论基础和实际应用。

在开篇的第1章,作者阐述了为什么需要集成学习,包括混合训练数据、混合模型和混合组合的概念,为后续的深入学习奠定了基础。

第2章详细介绍了混合训练数据的方法。从决策树的基本概念入手,进一步探讨了数据集采样的两种方式:不替换采样(WOR)和替换采样(WR),以及装袋算法(Bagging)及其相关的k重交叉验证和分层的k重交叉验证技术。这些方法有助于减少模型的方差,提高模型的稳定性。

第3章聚焦于混合模型,包括投票集成、硬投票、均值法/软投票、超参数调试集成、水平投票集成和快照集成等方法。这些方法通过结合多个模型的预测结果,提高了模型的准确性和泛化能力。

第4章深入探讨了混合组合,重点介绍了Boosting(提升算法)和Stacking(堆叠算法)。Boosting算法包括AdaBoost、Gradient Boosting和XGBoost等,通过迭代地训练弱学习器来提高模型的性能;Stacking算法则通过组合多个不同的模型来实现更好的预测效果。

第5章介绍了集成学习库,包括ML - 集成学习、通过Dask扩展XGBoost以及其他相关库如微软LightGBM和AdaNet等。这些库为集成学习的实践提供了强大的工具支持。

最后,第6章提供了实践指南,涵盖了基于随机森林的特征选择、基于集成树的特征转换、构建随机森林分类器预处理程序、孤立森林进行异常点检测以及使用Dask库进行集成学习处理等内容,帮助读者将理论知识应用到实际项目中。

这本书通过丰富的理论阐述和实用的实践指南,为数据科学家、机器学习工程师以及对集成学习感兴趣的读者提供了全面而深入的学习资源,是一本不可多得的专业书籍。