Python数据挖掘与机器学习


《Python数据挖掘与机器学习》读书摘要

《Python数据挖掘与机器学习》由魏伟一、张国治编著,清华大学出版社出版,是一本面向数据挖掘与机器学习领域的实用书籍,具有内容全面前沿、理论讲解深入浅出、结合案例驱动且易于实践等特点。

主要内容:

• 基础知识:介绍了Python数据分析与挖掘基础,包括Python程序概述(基础数据类型、变量和赋值、运算符和表达式、字符串、流程控制、函数等)、内建数据结构(列表、元组、字典、集合)、NumPy数值运算基础(创建数组对象、ndarray对象属性和数据转换、生成随机数、数组变换、索引和切片、运算、数据统计与分析等)、Pandas统计分析基础(数据结构、索引对象、查看DataFrame常用属性、数据查询与编辑、数据运算、函数应用与映射、排序、汇总与统计、数据分组与聚合、数据读取与存储等)以及Matplotlib图表绘制基础等内容,为后续的数据挖掘与机器学习打下坚实的编程和数据处理基础。

• 数据挖掘核心概念与技术:涵盖数据挖掘的各个方面,如绪论中讲解数据挖掘简介、数据分析与数据挖掘的关系、数据挖掘的主要任务(关联分析、数据建模预测、聚类分析、离群点检测等)、数据源、使用的技术(统计学、机器学习、数据库管理系统与数据仓库等)、存在的主要问题、建模常用工具以及为何选用Python进行数据挖掘和Python数据挖掘常用库等;还包括数据预处理(数据清理、集成、标准化、归约、变换与离散化等)、认识数据(属性及其类型、基本统计描述、可视化、数据对象的相似性度量等)、回归分析(一元线性回归、多元线性回归、逻辑回归及其他回归分析等)、关联规则挖掘(关联规则概述、频繁项集、闭项集和关联规则、挖掘方法、评估方法及应用等)、分类(分类概述、决策树归纳、K近邻算法、支持向量机、朴素贝叶斯分类、模型评估与选择、组合分类等)、聚类(聚类分析概述、K - Means聚类、层次聚类、基于密度的聚类、其他聚类方法、聚类评估等)、神经网络与深度学习(神经网络基础、BP神经网络、深度学习概述、常用深度学习算法等)、离群点检测(离群点概述、检测方法、scikit - learn中的异常检测方法等)。

• 实践应用:通过良/恶性乳腺肿瘤预测、泰坦尼克号乘客生还预测、图像的聚类分割等数据挖掘案例,将理论知识与实际应用相结合,帮助读者更好地理解和掌握数据挖掘与机器学习的方法和技巧,提升实践能力。

详细目录:

• 第1章 绪论

• 1.1 数据挖掘简介

• 1.2 数据分析与数据挖掘

• 1.3 数据挖掘的主要任务

• 1.3.1 关联分析

• 1.3.2 数据建模预测

• 1.3.3 聚类分析

• 1.3.4 离群点检测

• 1.4 数据挖掘的数据源

• 1.4.1 数据库数据

• 1.4.2 数据仓库

• 1.4.3 事务数据库

• 1.4.4 其他类型数据

• 1.5 数据挖掘使用的技术

• 1.5.1 统计学

• 1.5.2 机器学习

• 1.5.3 数据库管理系统与数据仓库

• 1.6 数据挖掘存在的主要问题

• 1.7 数据挖掘建模的常用工具

• 1.7.1 商用工具

• 1.7.2 开源工具

• 1.8 为何选用Python进行数据挖掘

• 1.9 Python数据挖掘常用库

• 1.10 Jupyter Notebook的使用

• 1.11 小结

• 习题1

• 第2章 Python数据分析与挖掘基础

• 2.1 Python程序概述

• 2.1.1 基础数据类型

• 2.1.2 变量和赋值

• 2.1.3 运算符和表达式

• 2.1.4 字符串

• 2.1.5 流程控制

• 2.1.6 函数

• 2.2 内建数据结构

• 2.2.1 列表

• 2.2.2 元组

• 2.2.3 字典

• 2.2.4 集合

• 2.3 NumPy数值运算基础

• 2.3.1 创建数组对象

• 2.3.2 ndarray对象属性和数据转换

• 2.3.3 生成随机数

• 2.3.4 数组变换

• 2.3.5 数组的索引和切片

• 2.3.6 数组的运算

• 2.3.7 NumPy中的数据统计与分析

• 2.4 Pandas统计分析基础

• 2.4.1 Pandas中的数据结构

• 2.4.2 索引对象

• 2.4.3 查看DataFrame的常用属性

• 2.4.4 DataFrame的数据查询与编辑

• 2.4.5 Pandas数据运算

• 2.4.6 函数应用与映射

• 2.4.7 排序

• 2.4.8 汇总与统计

• 2.4.9 数据分组与聚合

• 2.4.10 Pandas数据读取与存储

• 2.5 Matplotlib图表绘制基础

• 2.5.1 Matplotlib简介

• 2.5.2 Matplotlib绘图基础

• 2.5.3 设置pyplot的动态rc参数

• 2.5.4 文本注解

• 2.5.5 pyplot中的常用绘图

• 2.6 scikit - learn

• 2.6.1 scikit - learn简介

• 2.6.2 scikit - learn中的数据集

• 2.6.3 scikit - learn的主要功能

• 2.7 小结

• 习题2

• 第3章 认识数据

• 3.1 属性及其类型

• 3.1.1 属性

• 3.1.2 属性类型

• 3.2 数据的基本统计描述

• 3.2.1 中心趋势度量

• 3.2.2 数据散布度量

• 3.3 数据可视化

• 3.3.1 基于像素的可视化技术

• 3.3.2 几何投影可视化技术

• 3.3.3 基于图符的可视化技术

• 3.3.4 层次可视化技术

• 3.3.5 可视化复杂对象和关系

• 3.3.6 高维数据可视化

• 3.3.7 Python可视化

• 3.4 数据对象的相似性度量

• 3.4.1 数据矩阵和相异性矩阵

• 3.4.2 标称属性的相似性度量

• 3.4.3 二元属性的相似性度量

• 3.4.4 数值属性的相似性度量

• 3.4.5 序数属性的相似性度量

• 3.4.6 混合类型属性的相似性

• 3.4.7 余弦相似性

• 3.4.8 距离度量Python实现

• 3.5 小结

• 习题3

• 第4章 数据预处理

• 4.1 数据预处理的必要性

• 4.1.1 原始数据中存在的问题

• 4.1.2 数据质量要求

• 4.2 数据清洗

• 4.2.1 数据清洗方法

• 4.2.2 利用Pandas进行数据清洗

• 4.3 数据集成

• 4.3.1 数据集成过程中的关键问题

• 4.3.2 利用Pandas合并数据

• 4.4 数据标准化

• 4.4.1 离差标准化数据

• 4.4.2 标准差标准化数据

• 4.5 数据归约

• 4.5.1 维归约

• 4.5.2 数量归约

• 4.5.3 数据压缩

• 4.6 数据变换与数据离散化

• 4.6.1 数据变换的策略

• 4.6.2 Python数据变换与离散化

• 4.7 利用scikit - learn进行数据预处理

• 4.8 小结

• 习题4

• 第5章 回归分析

• 5.1 回归分析概述

• 5.1.1 回归分析的定义与分类

• 5.1.2 回归分析的过程

• 5.2 一元线性回归分析

• 5.2.1 一元线性回归方法

• 5.2.2 一元线性回归模型的参数估计

• 5.2.3 一元线性回归模型的误差方差估计

• 5.2.4 一元回归模型的主要统计检验

• 5.2.5 一元线性回归的Python实现

• 5.3 多元线性回归

• 5.3.1 多元线性回归模型

• 5.3.2 多元线性回归模型的参数估计

• 5.3.3 多元线性回归的假设检验及其评价

• 5.3.4 多元线性回归的Python实现

• 5.4 逻辑回归

• 5.4.1 逻辑回归模型

• 5.4.2 逻辑回归的Python实现

• 5.5 其他回归分析

• 5.5.1 多项式回归

• 5.5.2 岭回归

• 5.5.3 Lasso回归

• 5.5.4 逐步回归

• 5.6 小结

• 习题5

• 第6章 关联规则挖掘

• 6.1 关联规则分析概述

• 6.2 频繁项集、闭项集和关联规则

• 6.3 频繁项集挖掘方法

• 6.3.1 Apriori算法

• 6.3.2 由频繁项集产生关联规则

• 6.3.3 提高Apriori算法的效率

• 6.3.4 频繁模式增长算法

• 6.3.5 使用垂直数据格式挖掘频繁项集

• 6.4 关联模式评估方法

• 6.4.1 强关联规则不一定是有趣的

• 6.4.2 从关联分析到相关分析

• 6.5 Apriori算法应用

• 6.6 小结

• 习题6

• 第7章 分类

• 7.1 分类概述

• 7.2 决策树归纳

• 7.2.1 决策树原理

• 7.2.2 ID3算法

• 7.2.3 C4.5算法

• 7.2.4 CART算法

• 7.2.5 树剪枝

• 7.2.6 决策树应用

• 7.3 K近邻算法

• 7.3.1 算法原理

• 7.3.2 Python算法实现

• 7.4 支持向量机

• 7.4.1 算法原理

• 7.4.2 Python算法实现

• 7.5 朴素贝叶斯分类

• 7.5.1 算法原理

• 7.5.2 朴素贝叶斯分类

• 7.5.3 高斯朴素贝叶斯分类

• 7.5.4 多项式朴素贝叶斯分类

• 7.5.5 朴素贝叶斯分类应用

• 7.6 模型评估与选择

• 7.6.1 分类器性能的度量

• 7.6.2 模型选择

• 7.7 组合分类

• 7.7.1 组合分类方法简介

• 7.7.2 袋装

• 7.7.3 提升和AdaBoost

• 7.7.4 随机森林

• 7.8 小结

• 习题7

• 第8章 聚类

• 8.1 聚类分析概述

• 8.1.1 聚类分析的概念

• 8.1.2 聚类算法分类

• 8.2 K - Means聚类

• 8.2.1 算法原理

• 8.2.2 算法改进

• 8.2.3 K - Means算法实现

• 8.3 层次聚类

• 8.3.1 算法原理

• 8.3.2 簇间的距离度量

• 8.3.3 分裂层次聚类

• 8.3.4 凝聚层次聚类

• 8.3.5 层次聚类应用

• 8.4 基于密度的聚类

• 8.4.1 算法原理

• 8.4.2 算法改进

• 8.4.3 DBSCAN算法实现

• 8.5 其他聚类方法

• 8.5.1 STING聚类

• 8.5.2 概念聚类

• 8.5.3 模糊聚类

• 8.6 聚类评估

• 8.6.1 聚类趋势的估计

• 8.6.2 聚类簇数的确定

• 8.6.3 聚类质量的测定

• 8.7 小结

• 习题8

• 第9章 神经网络与深度学习

• 9.1 神经网络基础

• 9.1.1 神经元模型

• 9.1.2 感知机与多层网络

• 9.2 BP神经网络

• 9.2.1 多层前馈神经网络

• 9.2.2 后向传播算法

• 9.2.3 BP神经网络应用

• 9.3 深度学习

• 9.3.1 深度学习概述

• 9.3.2 常用的深度学习算法

• 9.4 小结

• 习题9

• 第10章 离群点检测

• 10.1 离群点概述

• 10.1.1 离群点的概念

• 10.1.2 离群点的类型

• 10.1.3 离群点检测的挑战

• 10.2 离群点的检测

• 10.2.1 基于统计学的离群点检测

• 10.2.2 基于邻近性的离群点检测

• 10.2.3 基于聚类的离群点检测

• 10.2.4 基于分类的离群点检测

• 10.3 scikit - learn中的异常检测方法

• 10.4 小结

• 习题10

• 第11章 数据挖掘案例

• 11.1 良/恶性乳腺肿瘤预测

• 11.2 泰坦尼克号乘客生还预测

• 11.3 图像的聚类分割

• 11.4 小结

• 参考文献

本书适合对数据挖掘与机器学习感兴趣的读者,无论是初学者还是有一定基础的学习者,都能通过本书系统地学习相关知识,并通过实际案例提升实践能力。书中还提供了教学大纲、教学课件、电子教案、程序源码、教学进度表以及650分钟的视频讲解等丰富的配套资源,有助于读者更好地学习和掌握书中内容。