《Python数据挖掘与机器学习》读书摘要
《Python数据挖掘与机器学习》由魏伟一、张国治编著,清华大学出版社出版,是一本面向数据挖掘与机器学习领域的实用书籍,具有内容全面前沿、理论讲解深入浅出、结合案例驱动且易于实践等特点。
主要内容:
• 基础知识:介绍了Python数据分析与挖掘基础,包括Python程序概述(基础数据类型、变量和赋值、运算符和表达式、字符串、流程控制、函数等)、内建数据结构(列表、元组、字典、集合)、NumPy数值运算基础(创建数组对象、ndarray对象属性和数据转换、生成随机数、数组变换、索引和切片、运算、数据统计与分析等)、Pandas统计分析基础(数据结构、索引对象、查看DataFrame常用属性、数据查询与编辑、数据运算、函数应用与映射、排序、汇总与统计、数据分组与聚合、数据读取与存储等)以及Matplotlib图表绘制基础等内容,为后续的数据挖掘与机器学习打下坚实的编程和数据处理基础。
• 数据挖掘核心概念与技术:涵盖数据挖掘的各个方面,如绪论中讲解数据挖掘简介、数据分析与数据挖掘的关系、数据挖掘的主要任务(关联分析、数据建模预测、聚类分析、离群点检测等)、数据源、使用的技术(统计学、机器学习、数据库管理系统与数据仓库等)、存在的主要问题、建模常用工具以及为何选用Python进行数据挖掘和Python数据挖掘常用库等;还包括数据预处理(数据清理、集成、标准化、归约、变换与离散化等)、认识数据(属性及其类型、基本统计描述、可视化、数据对象的相似性度量等)、回归分析(一元线性回归、多元线性回归、逻辑回归及其他回归分析等)、关联规则挖掘(关联规则概述、频繁项集、闭项集和关联规则、挖掘方法、评估方法及应用等)、分类(分类概述、决策树归纳、K近邻算法、支持向量机、朴素贝叶斯分类、模型评估与选择、组合分类等)、聚类(聚类分析概述、K - Means聚类、层次聚类、基于密度的聚类、其他聚类方法、聚类评估等)、神经网络与深度学习(神经网络基础、BP神经网络、深度学习概述、常用深度学习算法等)、离群点检测(离群点概述、检测方法、scikit - learn中的异常检测方法等)。
• 实践应用:通过良/恶性乳腺肿瘤预测、泰坦尼克号乘客生还预测、图像的聚类分割等数据挖掘案例,将理论知识与实际应用相结合,帮助读者更好地理解和掌握数据挖掘与机器学习的方法和技巧,提升实践能力。
详细目录:
• 第1章 绪论
• 1.1 数据挖掘简介
• 1.2 数据分析与数据挖掘
• 1.3 数据挖掘的主要任务
• 1.3.1 关联分析
• 1.3.2 数据建模预测
• 1.3.3 聚类分析
• 1.3.4 离群点检测
• 1.4 数据挖掘的数据源
• 1.4.1 数据库数据
• 1.4.2 数据仓库
• 1.4.3 事务数据库
• 1.4.4 其他类型数据
• 1.5 数据挖掘使用的技术
• 1.5.1 统计学
• 1.5.2 机器学习
• 1.5.3 数据库管理系统与数据仓库
• 1.6 数据挖掘存在的主要问题
• 1.7 数据挖掘建模的常用工具
• 1.7.1 商用工具
• 1.7.2 开源工具
• 1.8 为何选用Python进行数据挖掘
• 1.9 Python数据挖掘常用库
• 1.10 Jupyter Notebook的使用
• 1.11 小结
• 习题1
• 第2章 Python数据分析与挖掘基础
• 2.1 Python程序概述
• 2.1.1 基础数据类型
• 2.1.2 变量和赋值
• 2.1.3 运算符和表达式
• 2.1.4 字符串
• 2.1.5 流程控制
• 2.1.6 函数
• 2.2 内建数据结构
• 2.2.1 列表
• 2.2.2 元组
• 2.2.3 字典
• 2.2.4 集合
• 2.3 NumPy数值运算基础
• 2.3.1 创建数组对象
• 2.3.2 ndarray对象属性和数据转换
• 2.3.3 生成随机数
• 2.3.4 数组变换
• 2.3.5 数组的索引和切片
• 2.3.6 数组的运算
• 2.3.7 NumPy中的数据统计与分析
• 2.4 Pandas统计分析基础
• 2.4.1 Pandas中的数据结构
• 2.4.2 索引对象
• 2.4.3 查看DataFrame的常用属性
• 2.4.4 DataFrame的数据查询与编辑
• 2.4.5 Pandas数据运算
• 2.4.6 函数应用与映射
• 2.4.7 排序
• 2.4.8 汇总与统计
• 2.4.9 数据分组与聚合
• 2.4.10 Pandas数据读取与存储
• 2.5 Matplotlib图表绘制基础
• 2.5.1 Matplotlib简介
• 2.5.2 Matplotlib绘图基础
• 2.5.3 设置pyplot的动态rc参数
• 2.5.4 文本注解
• 2.5.5 pyplot中的常用绘图
• 2.6 scikit - learn
• 2.6.1 scikit - learn简介
• 2.6.2 scikit - learn中的数据集
• 2.6.3 scikit - learn的主要功能
• 2.7 小结
• 习题2
• 第3章 认识数据
• 3.1 属性及其类型
• 3.1.1 属性
• 3.1.2 属性类型
• 3.2 数据的基本统计描述
• 3.2.1 中心趋势度量
• 3.2.2 数据散布度量
• 3.3 数据可视化
• 3.3.1 基于像素的可视化技术
• 3.3.2 几何投影可视化技术
• 3.3.3 基于图符的可视化技术
• 3.3.4 层次可视化技术
• 3.3.5 可视化复杂对象和关系
• 3.3.6 高维数据可视化
• 3.3.7 Python可视化
• 3.4 数据对象的相似性度量
• 3.4.1 数据矩阵和相异性矩阵
• 3.4.2 标称属性的相似性度量
• 3.4.3 二元属性的相似性度量
• 3.4.4 数值属性的相似性度量
• 3.4.5 序数属性的相似性度量
• 3.4.6 混合类型属性的相似性
• 3.4.7 余弦相似性
• 3.4.8 距离度量Python实现
• 3.5 小结
• 习题3
• 第4章 数据预处理
• 4.1 数据预处理的必要性
• 4.1.1 原始数据中存在的问题
• 4.1.2 数据质量要求
• 4.2 数据清洗
• 4.2.1 数据清洗方法
• 4.2.2 利用Pandas进行数据清洗
• 4.3 数据集成
• 4.3.1 数据集成过程中的关键问题
• 4.3.2 利用Pandas合并数据
• 4.4 数据标准化
• 4.4.1 离差标准化数据
• 4.4.2 标准差标准化数据
• 4.5 数据归约
• 4.5.1 维归约
• 4.5.2 数量归约
• 4.5.3 数据压缩
• 4.6 数据变换与数据离散化
• 4.6.1 数据变换的策略
• 4.6.2 Python数据变换与离散化
• 4.7 利用scikit - learn进行数据预处理
• 4.8 小结
• 习题4
• 第5章 回归分析
• 5.1 回归分析概述
• 5.1.1 回归分析的定义与分类
• 5.1.2 回归分析的过程
• 5.2 一元线性回归分析
• 5.2.1 一元线性回归方法
• 5.2.2 一元线性回归模型的参数估计
• 5.2.3 一元线性回归模型的误差方差估计
• 5.2.4 一元回归模型的主要统计检验
• 5.2.5 一元线性回归的Python实现
• 5.3 多元线性回归
• 5.3.1 多元线性回归模型
• 5.3.2 多元线性回归模型的参数估计
• 5.3.3 多元线性回归的假设检验及其评价
• 5.3.4 多元线性回归的Python实现
• 5.4 逻辑回归
• 5.4.1 逻辑回归模型
• 5.4.2 逻辑回归的Python实现
• 5.5 其他回归分析
• 5.5.1 多项式回归
• 5.5.2 岭回归
• 5.5.3 Lasso回归
• 5.5.4 逐步回归
• 5.6 小结
• 习题5
• 第6章 关联规则挖掘
• 6.1 关联规则分析概述
• 6.2 频繁项集、闭项集和关联规则
• 6.3 频繁项集挖掘方法
• 6.3.1 Apriori算法
• 6.3.2 由频繁项集产生关联规则
• 6.3.3 提高Apriori算法的效率
• 6.3.4 频繁模式增长算法
• 6.3.5 使用垂直数据格式挖掘频繁项集
• 6.4 关联模式评估方法
• 6.4.1 强关联规则不一定是有趣的
• 6.4.2 从关联分析到相关分析
• 6.5 Apriori算法应用
• 6.6 小结
• 习题6
• 第7章 分类
• 7.1 分类概述
• 7.2 决策树归纳
• 7.2.1 决策树原理
• 7.2.2 ID3算法
• 7.2.3 C4.5算法
• 7.2.4 CART算法
• 7.2.5 树剪枝
• 7.2.6 决策树应用
• 7.3 K近邻算法
• 7.3.1 算法原理
• 7.3.2 Python算法实现
• 7.4 支持向量机
• 7.4.1 算法原理
• 7.4.2 Python算法实现
• 7.5 朴素贝叶斯分类
• 7.5.1 算法原理
• 7.5.2 朴素贝叶斯分类
• 7.5.3 高斯朴素贝叶斯分类
• 7.5.4 多项式朴素贝叶斯分类
• 7.5.5 朴素贝叶斯分类应用
• 7.6 模型评估与选择
• 7.6.1 分类器性能的度量
• 7.6.2 模型选择
• 7.7 组合分类
• 7.7.1 组合分类方法简介
• 7.7.2 袋装
• 7.7.3 提升和AdaBoost
• 7.7.4 随机森林
• 7.8 小结
• 习题7
• 第8章 聚类
• 8.1 聚类分析概述
• 8.1.1 聚类分析的概念
• 8.1.2 聚类算法分类
• 8.2 K - Means聚类
• 8.2.1 算法原理
• 8.2.2 算法改进
• 8.2.3 K - Means算法实现
• 8.3 层次聚类
• 8.3.1 算法原理
• 8.3.2 簇间的距离度量
• 8.3.3 分裂层次聚类
• 8.3.4 凝聚层次聚类
• 8.3.5 层次聚类应用
• 8.4 基于密度的聚类
• 8.4.1 算法原理
• 8.4.2 算法改进
• 8.4.3 DBSCAN算法实现
• 8.5 其他聚类方法
• 8.5.1 STING聚类
• 8.5.2 概念聚类
• 8.5.3 模糊聚类
• 8.6 聚类评估
• 8.6.1 聚类趋势的估计
• 8.6.2 聚类簇数的确定
• 8.6.3 聚类质量的测定
• 8.7 小结
• 习题8
• 第9章 神经网络与深度学习
• 9.1 神经网络基础
• 9.1.1 神经元模型
• 9.1.2 感知机与多层网络
• 9.2 BP神经网络
• 9.2.1 多层前馈神经网络
• 9.2.2 后向传播算法
• 9.2.3 BP神经网络应用
• 9.3 深度学习
• 9.3.1 深度学习概述
• 9.3.2 常用的深度学习算法
• 9.4 小结
• 习题9
• 第10章 离群点检测
• 10.1 离群点概述
• 10.1.1 离群点的概念
• 10.1.2 离群点的类型
• 10.1.3 离群点检测的挑战
• 10.2 离群点的检测
• 10.2.1 基于统计学的离群点检测
• 10.2.2 基于邻近性的离群点检测
• 10.2.3 基于聚类的离群点检测
• 10.2.4 基于分类的离群点检测
• 10.3 scikit - learn中的异常检测方法
• 10.4 小结
• 习题10
• 第11章 数据挖掘案例
• 11.1 良/恶性乳腺肿瘤预测
• 11.2 泰坦尼克号乘客生还预测
• 11.3 图像的聚类分割
• 11.4 小结
• 参考文献
本书适合对数据挖掘与机器学习感兴趣的读者,无论是初学者还是有一定基础的学习者,都能通过本书系统地学习相关知识,并通过实际案例提升实践能力。书中还提供了教学大纲、教学课件、电子教案、程序源码、教学进度表以及650分钟的视频讲解等丰富的配套资源,有助于读者更好地学习和掌握书中内容。