集成学习与实战:原理、算法与应用


读书摘要

《集成学习与实战:原理、算法与应用》是一本专注于集成学习技术的书籍。书中详细介绍了集成学习的各种方法、算法原理及其实际应用。

在原理部分,对集成学习的基础概念进行了深入讲解,包括Bagging、Boosting、Stacking等核心技术。例如,详细阐述了AdaBoost(自适应提升算法)、Gradient Boosting(梯度提升算法)和XGBoost(极端梯度提升算法)等提升算法的原理,使读者能够理解这些算法如何通过迭代优化来提高模型的准确性。

算法部分涵盖了丰富的内容,从混合组合的方法到集成学习库的使用。书中介绍了如何通过Dask扩展XGBoost,以及对微软LightGBM和AdaNet等集成学习框架的技术详解,帮助读者了解如何在实际项目中应用这些算法。

实践指南是本书的一个重要亮点,书中提供了基于随机森林的特征选择、基于集成树的特征转换等实践方法。还包括构建随机森林分类器预处理程序、孤立森林进行异常点检测等实践操作,使读者能够将所学的理论知识应用到实际的数据处理和模型构建中。

总体而言,这本书适合希望深入学习集成学习技术,并将其应用于实际项目的数据科学家、机器学习工程师和相关专业的学生阅读。通过丰富的理论和实践内容,读者可以全面掌握集成学习的原理、算法和应用技巧。

三级读书目录

第一部分:集成学习基础

• 第3章:集成学习基础

• 3.3均值法/软投票

• 3.4超参数调试集成

• 3.5水平投票集成

• 3.6快照集成

• 3.7本章小结

第二部分:混合组合与集成学习库

• 第4章:混合组合

• 4.1 Boosting(提升算法)

• 4.1.1 AdaBoost(自适应提升算法)

• 4.1.2 Gradient Boosting(梯度提升算法)

• 4.1.3 XGBoost(极端梯度提升算法)

• 4.2 Stacking(堆叠算法)

• 4.3本章小结

• 第5章:集成学习库

• 5.1 ML - 集成学习

• 5.1.1多层集成

• 5.1.2集成模型的选择

• 5.2通过Dask扩展XGBoost

• 5.2.1 Dask数组与数据结构

• 5.2.2 Dask - ML

• 5.2.3扩展XGBoost

• 5.2.4微软LightGBM

• 5.2.5 AdaNet

• 5.3本章小结

第三部分:实践指南

• 第6章:实践指南

• 6.1基于随机森林的特征选择

• 6.2基于集成树的特征转换

• 6.3构建随机森林分类器预处理程序

• 6.4孤立森林进行异常点检测

• 6.5使用Dask库进行集成学习处理

• 6.5.1预处理

• 6.5.2超参数搜索

• 6.6本章小结

• 致谢