Python数据分析技术手册


《Python数据分析技术手册》读书摘要

《Python数据分析技术手册》是一本全面且实用的Python数据分析指南,由邓立文、俞心宇、牛瑶编著,清华大学出版社出版。本书以零基础读者为对象,深入浅出地介绍了Python数据分析的各个方面,通过丰富的实例和实战练习,帮助读者快速掌握相关技能。

主要内容:

• 基础知识:从Python语言特点、安装方式及集成开发环境入手,逐步讲解Python基础,包括变量与赋值、输入输出、数据类型、运算符与表达式、选择结构、循环结构等内容,为后续数据分析打下坚实基础。还介绍了函数与模块、面向对象编程以及文件操作等知识,让读者熟悉Python编程的基本概念和方法。

• 数据分析工具与技术:深入介绍了NumPy和Pandas这两个重要的数据分析库。NumPy部分涵盖数组创建、属性、数据取值、更新、合并拆分、运算、数据类型、维度转换、随机数组、统计函数、数据处理操作、数学函数以及与线性代数计算和文件操作等内容。Pandas部分则包括Series和DataFrame对象的详细讲解,如创建方法、属性、取值、更新、运算、统计函数、字符串处理、常用函数等,还涉及文件操作、数据分组与聚合、透视表与交叉表、数据预处理、时间序列处理以及数据可视化等,使读者能够熟练运用这些工具进行数据处理和分析。

• 数据可视化:讲解了Matplotlib和Seaborn库,介绍了如何选择适合的图表类型以及数据分析图表的基本组成,通过大量实例展示了各种常用图表(如折线图、柱状图、直方图、饼图、散点图、热力图、箱形图等)的绘制方法,包括基本设置(如图布、坐标轴、标题、图例、注释等),让读者能够将分析结果以直观的方式呈现。

• 数据分析算法与实战:介绍了机器学习基础,涵盖监督学习算法(如线性回归、逻辑回归、K - NN算法、神经网络、线性判别分析、朴素贝叶斯分类器、SVM支持向量机、决策树等)和无监督学习算法(如聚类、PCA数据降维等),以及编程算法在数据分析中的应用。还通过多个实战案例,如京东电商销售数据分析与预测、电视节目数据分析系统、基于MySQL网站平台注册用户分析、二手房房价分析与预测、Python实现客户价值分析、快速批量合并和处理Excel、爬取分析NBA球员薪资数据、获取和分析股票行情数据、基于文本数据的京东商家评论数据分析、处理大型数据集等,让读者将所学知识应用到实际项目中,提升数据分析的实践能力。这些案例涵盖了数据准备、业务流程、分析方法、实现过程等环节,涉及数据清洗、数据可视化、统计分析、机器学习建模等多种技术,使读者能够深入了解数据分析的全过程,掌握解决实际问题的能力。

详细目录:

• 第1章 Python与数据分析

• 1.1 数据分析概念

• 1.2 为什么使用Python

• 1.2.1 智能时代的通用语言

• 1.2.2 强大高效的第三方库

• 1.2.3 轻松的代码结合能力

• 1.3 数据分析领域的应用场景

• 1.3.1 医疗健康

• 1.3.2 交通出行

• 1.3.3 商业策略

• 1.3.4 经济金融

• 1.3.5 城乡规划

• 1.3.6 气候变化

• 1.3.7 科研及自动化办公

• 1.4 本章小结

• 第2章 初识Python

• 2.1 Python语言特点

• 2.2 Python安装方式

• 2.2.1 Anaconda安装

• 2.2.2 官网安装

• 2.3 Python集成开发环境

• 2.3.1 Jupyter Notebook

• 2.3.2 Spyder

• 2.3.3 PyCharm

• 2.4 本章小结

• 第3章 Python基础

• 3.1 变量与赋值

• 3.1.1 变量

• 3.1.2 赋值

• 3.2 输入与输出

• 3.2.1 输入

• 3.2.2 输出

• 3.3 Python对象

• 3.3.1 Python对象的概念

• 3.3.2 变量与对象的关系

• 3.4 数据类型

• 3.4.1 数字

• 3.4.2 字符串

• 3.4.3 列表

• 3.4.4 元组

• 3.4.5 字典

• 3.4.6 集合

• 3.5 运算符与表达式

• 3.5.1 算术运算符

• 3.5.2 比较运算符

• 3.5.3 逻辑运算符

• 3.5.4 位运算符

• 3.5.5 赋值运算符

• 3.5.6 成员运算符

• 3.5.7 身份运算符

• 3.6 选择结构

• 3.6.1 if语句

• 3.6.2 if - else语句

• 3.6.3 if - elif - else语句

• 3.7 循环结构

• 3.7.1 while循环

• 3.7.2 for循环

• 3.7.3 循环嵌套

• 3.7.4 循环控制语句

• 3.8 综合示例

• 3.9 本章小结

• 第4章 Pandas入门

• 4.1 初识Pandas

• 4.1.1 Pandas概述

• 4.1.2 安装Pandas

• 4.2 Pandas家族成员

• 4.2.1 Series对象

• 4.2.2 DataFrame对象

• 4.3 索引

• 4.3.1 什么是索引

• 4.3.2 索引的作用

• 4.3.3 Series对象的索引

• 4.3.4 DataFrame对象的索引

• 4.4 综合案例——构建身体数据并计算体质指数

• 4.5 实战练习

• 第5章 数据读取与处理

• 5.1 数据读取与写入

• 5.1.1 读取与写入Excel文件

• 5.1.2 读取与写入CSV文件

• 5.1.3 读取文本文件

• 5.1.4 读取HTML网页

• 5.2 读取数据库中的数据

• 5.2.1 读取MySQL数据库中的数据

• 5.2.2 读取MongoDB数据库中的数据

• 5.3 数据抽取

• 5.3.1 按行抽取数据

• 5.3.2 抽取多行数据

• 5.3.3 抽取指定列数据

• 5.3.4 抽取指定的行、列数据

• 5.4 数据的增、删、改、查

• 5.4.1 增加数据

• 5.4.2 删除数据

• 5.4.3 修改数据

• 5.4.4 查询数据

• 5.5 数据排序与排名

• 5.5.1 数据排序

• 5.5.2 数据排名

• 5.6 综合案例——电商产品转化率分析

• 5.7 实战练习

• 第6章 数据清洗

• 6.1 处理缺失值

• 6.1.1 什么是缺失值

• 6.1.2 查看缺失值

• 6.1.3 处理缺失值

• 6.2 处理重复值

• 6.3 异常值的检测与处理

• 6.4 字符串操作

• 6.4.1 字符串对象方法

• 6.4.2 字符串替换方法

• 6.5 数据转换

• 6.5.1 使用字典映射进行数据转换

• 6.5.2 数据分割

• 6.5.3 分类数据数字化

• 6.6 综合案例——缺失值比例分析

• 6.7 实战练习

• 第7章 数据计算与分组统计

• 7.1 数据计算

• 7.1.1 求和

• 7.1.2 求均值

• 7.1.3 求最大值

• 7.1.4 求最小值

• 7.1.5 求中位数

• 7.1.6 求众数

• 7.1.7 求方差

• 7.1.8 标准差

• 7.1.9 求分位数

• 7.2 数据格式化

• 7.2.1 设置小数位数

• 7.2.2 设置百分比

• 7.2.3 设置千位分隔符

• 7.3 数据分组统计

• 7.3.1 分组统计函数groupby()

• 7.3.2 对分组数据进行迭代

• 7.3.3 对分组的某列或多列使用聚合函数

• 7.3.4 通过字典和Series对象进行分组统计

• 7.4 数据移位

• 7.5 数据合并

• 7.5.1 merge()方法

• 7.5.2 concat()方法

• 7.6 数据透视表

• 7.6.1 pivot()方法

• 7.6.2 pivot_table()方法

• 7.7 综合案例——商品月销量对比分析

• 7.8 实战练习

• 第8章 日期处理与时间序列

• 8.1 日期数据处理

• 8.1.1 DataFrame的日期数据转换

• 8.1.2 dt对象的使用

• 8.1.3 获取日期间的数据

• 8.1.4 按不同时期统计并显示数据

• 8.2 日期范围、频率和移位

• 8.2.1 生成日期范围

• 8.2.2 日期频率转换

• 8.2.3 移位日期

• 8.3 时间区间与频率转换

• 8.3.1 创建时间区间

• 8.3.2 频率转换

• 8.4 重采样与频率转换

• 8.4.1 重采样

• 8.4.2 降采样处理

• 8.4.3 升采样处理

• 8.5 移动窗口函数

• 8.5.1 时间序列数据汇总

• 8.5.2 移动窗口数据计算

• 8.6 综合案例——股票行情数据分析

• 8.7 实战练习

• 第9章 可视化数据分析图表

• 9.1 数据分析图表的作用

• 9.2 如何选择适合的图表类型

• 9.3 数据分析图表的基本组成

• 9.4 Matplotlib概述

• 9.4.1 Matplotlib简介

• 9.4.2 安装Matplotlib

• 9.4.3 Matplotlib图表之初体验

• 9.5 图表的常用设置

• 9.5.1 基本绘图函数plot()

• 9.5.2 设置画布

• 9.5.3 设置坐标轴

• 9.5.4 为体温折线图设置标题

• 9.5.5 设置标题和图例

• 9.5.6 添加注释

• 9.5.7 调整图表与画布边缘的间距

• 9.5.8 设置坐标轴

• 9.6 常用图表的绘制

• 9.6.1 绘制折线图

• 9.6.2 绘制柱状图

• 9.6.3 绘制直方图

• 9.6.4 绘制饼图

• 9.6.5 绘制散点图

• 9.6.6 绘制面积图

• 9.6.7 绘制热力图

• 9.6.8 绘制箱形图

• 9.6.9 绘制3D图表

• 9.6.10 绘制多个子图表

• 9.7 Seaborn图表

• 9.7.1 Seaborn图表概述

• 9.7.2 Seaborn图表之初体验

• 9.7.3 Seaborn图表的基本设置

• 9.7.4 常用图表的绘制

• 9.8 综合案例——京东电商单品销量同比增长情况分析

• 9.9 实战练习

• 第10章 机器学习Scikit - Learn

• 10.1 Scikit - Learn简介

• 10.2 安装Scikit - Learn

• 10.3 线性模型

• 10.3.1 最小二乘法回归

• 10.3.2 岭回归

• 10.4 支持向量机

• 10.5 聚类

• 10.5.1 什么是聚类

• 10.5.2 聚类算法

• 10.5.3 聚类模块

• 10.5.4 聚类数据生成器

• 10.6 综合案例——预测考试成绩

• 10.7 实战练习

• 第11章 处理大型数据集

• 11.1 概述

• 11.2 案例效果预览

• 11.3 案例准备

• 11.4 业务流程

• 11.5 实现过程

• 11.5.1 数据准备

• 11.5.2 数据分块

• 11.5.3 查看与处理数据

• 11.5.4 保存分块数据

• 11.5.5 合并分块数据

• 11.6 关键技术

• 第12章 快速批量合并和处理Excel

• 12.1 概述

• 12.2 案例效果预览

• 12.3 案例准备

• 12.4 业务流程

• 12.5 实现过程

• 12.5.1 数据准备

• 12.5.2 将多个Excel合并为一个Excel

• 12.5.3 合并指定的Excel的指定列到一个Excel

• 12.5.4 合并指定的Excel到一个Excel的多个Sheet

• 12.5.5 批量合并文件夹中所有的Excel的多个Sheet

• 12.6 关键技术

• 第13章 爬取分析NBA球员薪资数据

• 13.1 概述

• 13.2 案例效果预览

• 13.3 案例准备

• 13.4 业务流程

• 13.5 实现过程

• 13.5.1 数据准备

• 13.5.2 确定网页格式

• 13.5.3 爬取数据

• 13.5.4 清洗数据

• 13.5.5 绘制水平柱形图分析湖人队薪资状况

• 13.6 关键技术

• 第14章 获取和分析股票行情数据

• 14.1 概述

• 14.2 案例效果预览

• 14.3 案例准备

• 14.4 业务流程

• 14.5 实现过程

• 14.5.1 安装第三方模块

• 14.5.2 获取股票历史数据

• 14.5.3 数据归一化处理

• 14.5.4 可视化股票走势图

• 14.5.5 股票收盘价格走势图

• 14.5.6 股票涨跌情况分析图

• 14.5.7 股票k线走势图

• 14.6 关键技术

• 第15章 基于文本数据的京东商家评论数据分析

• 15.1 概述

• 15.2 案例效果预览

• 15.3 案例准备

• 15.4 业务流程

• 15.5 实现过程

• 15.5.1 安装第三方模块

• 15.5.2 数据准备

• 15.5.3 数据清洗

• 15.5.4 总体评价状况分析