目录
• 第1章 机器学习基础
• 1.1 什么是机器学习
• 1.2 从数据中学习
• 1.3 机器学习能够解决的问题
• 1.4 机器学习的分类
• 1.4.1 学习方式
• 1.4.2 算法的分类
• 1.5 机器学习的范围
• 1.6 编程语言与开发环境
• 1.6.1 选择Python的原因
• 1.6.2 安装开发环境
• 1.6.3 Sklearn - learn
• 1.7 第一个机器学习应用:鸢尾花分类
• 1.7.1 特征数据与标签数据
• 1.7.2 训练数据与测试数据
• 1.7.3 构建机器学习模型
• 1.7.4 预测与评估
• 第2章 监督学习
• 2.1 监督学习概念与术语
• 2.1.1 监督学习工作原理
• 2.1.2 分类与回归
• 2.1.3 泛化
• 2.1.4 欠拟合
• 2.1.5 过拟合
• 2.1.6 不收敛
• 2.2 K近邻算法
• 2.2.1 K近邻分类
• 2.2.2 K近邻回归
• 2.3 朴素贝叶斯
• 第3章 无监督学习
• 3.1 无监督学习概念与术语
• 3.2 聚类算法
• 3.2.1 K - means聚类
• 3.2.2 层次聚类
• 3.3 降维算法
• 3.3.1 主成分分析(PCA)
• 3.3.2 线性判别分析(LDA)
• 第4章 特征工程
• 4.1 特征理解
• 4.2 特征增强
• 4.3 特征构建
• 4.3.1 特征构建的基础操作
• 4.3.2 特征构建的数值变量扩展
• 4.3.3 文本变量处理
• 4.4 特征选择
• 4.4.1 单变量特征选择
• 4.4.2 模型特征选择
• 4.4.3 特征转换
• 第5章 模型评估与优化
• 5.1 评估指标与管道
• 5.1.1 用管道方法简化工作流程
• 5.1.2 通用的管道接口
• 5.2 交叉验证
• 5.2.1 K折交叉验证
• 5.2.2 分层K折交叉验证
• 5.3 模型评价指标
• 5.3.1 误分类的不同影响
• 5.3.2 混淆矩阵
• 5.3.3 分类的不确定性
• 5.3.4 准确率与召回率曲线
• 5.3.5 受试者工作特征(ROC)与AUC
• 5.3.6 多分类指标
• 5.3.7 回归指标
• 5.4 在模型选择中使用评估指标
• 5.5 处理类的不平衡问题
• 5.5.1 类别不平衡问题
• 5.5.2 解决类别不平衡问题
• 5.6 网格搜索优化模型
• 5.6.1 简单网格搜索选择超参数
• 5.6.2 验证集用于超参数选择
• 5.6.3 带交叉验证的网格搜索
• 第6章 机器学习应用案例
• 6.1 电影推荐系统
• 6.1.1 推荐系统基础
• 6.1.2 推荐引擎算法
• 6.1.3 相似度指标
• 6.2 情感分析系统
• 6.3 房价预测系统
• 6.4 人脸识别系统
读书摘要与主要内容介绍
《机器学习:原理、算法与Python实战》是一本全面介绍机器学习相关知识的书籍,从基础理论到实际应用,都有详细的阐述。
在第1章中,作者首先对机器学习的基础概念进行了介绍,包括什么是机器学习、机器学习能够解决的问题类型等。同时,还介绍了机器学习的分类方法,以及常用的编程语言和开发环境,特别是Python在机器学习中的应用,并通过鸢尾花分类的案例,让读者初步了解机器学习的实践流程。
第2章重点讲解了监督学习,包括其概念、术语和工作原理,如分类与回归、泛化、欠拟合、过拟合和不收敛等。还详细介绍了K近邻算法和朴素贝叶斯算法,这些都是监督学习中常见的算法。
第3章转向无监督学习,阐述了无监督学习的概念和术语,并介绍了聚类算法(如K - means聚类和层次聚类)和降维算法(如主成分分析和线性判别分析),这些算法在数据挖掘和数据分析中有着重要的应用。
第4章是关于特征工程的内容,包括特征理解、增强和构建,以及特征选择和转换。特征工程是机器学习中至关重要的环节,直接影响模型的性能。
第5章聚焦于模型评估与优化,介绍了评估指标和管道、交叉验证方法、各种模型评价指标,以及如何处理类的不平衡问题和通过网格搜索优化模型。这些内容有助于读者选择和优化合适的机器学习模型。
最后,第6章通过多个实际应用案例,如电影推荐系统、情感分析系统、房价预测系统和人脸识别系统,展示了机器学习在不同领域的具体应用,帮助读者将前面所学的理论知识应用到实际项目中。
这本书通过丰富的理论知识和实际案例,为读者提供了一条从机器学习入门到实践应用的完整学习路径,适合想要系统学习机器学习的读者。