《Python数据分析技术手册》读书摘要
《Python数据分析技术手册》是一本全面且实用的Python数据分析指南,由邓立文、俞心宇、牛瑶编著,清华大学出版社出版。本书以零基础读者为对象,深入浅出地介绍了Python数据分析的各个方面,通过丰富的实例和实战练习,帮助读者快速掌握相关技能。
主要内容:
• 基础知识:从Python语言特点、安装方式及集成开发环境入手,逐步讲解Python基础,包括变量与赋值、输入输出、数据类型、运算符与表达式、选择结构、循环结构等内容,为后续数据分析打下坚实基础。还介绍了函数与模块、面向对象编程以及文件操作等知识,让读者熟悉Python编程的基本概念和方法。
• 数据分析工具与技术:深入介绍了NumPy和Pandas这两个重要的数据分析库。NumPy部分涵盖数组创建、属性、数据取值、更新、合并拆分、运算、数据类型、维度转换、随机数组、统计函数、数据处理操作、数学函数以及与线性代数计算和文件操作等内容。Pandas部分则包括Series和DataFrame对象的详细讲解,如创建方法、属性、取值、更新、运算、统计函数、字符串处理、常用函数等,还涉及文件操作、数据分组与聚合、透视表与交叉表、数据预处理、时间序列处理以及数据可视化等,使读者能够熟练运用这些工具进行数据处理和分析。
• 数据可视化:讲解了Matplotlib和Seaborn库,介绍了如何选择适合的图表类型以及数据分析图表的基本组成,通过大量实例展示了各种常用图表(如折线图、柱状图、直方图、饼图、散点图、热力图、箱形图等)的绘制方法,包括基本设置(如图布、坐标轴、标题、图例、注释等),让读者能够将分析结果以直观的方式呈现。
• 数据分析算法与实战:介绍了机器学习基础,涵盖监督学习算法(如线性回归、逻辑回归、K - NN算法、神经网络、线性判别分析、朴素贝叶斯分类器、SVM支持向量机、决策树等)和无监督学习算法(如聚类、PCA数据降维等),以及编程算法在数据分析中的应用。还通过多个实战案例,如京东电商销售数据分析与预测、电视节目数据分析系统、基于MySQL网站平台注册用户分析、二手房房价分析与预测、Python实现客户价值分析、快速批量合并和处理Excel、爬取分析NBA球员薪资数据、获取和分析股票行情数据、基于文本数据的京东商家评论数据分析、处理大型数据集等,让读者将所学知识应用到实际项目中,提升数据分析的实践能力。这些案例涵盖了数据准备、业务流程、分析方法、实现过程等环节,涉及数据清洗、数据可视化、统计分析、机器学习建模等多种技术,使读者能够深入了解数据分析的全过程,掌握解决实际问题的能力。
详细目录:
• 第1章 Python与数据分析
• 1.1 数据分析概念
• 1.2 为什么使用Python
• 1.2.1 智能时代的通用语言
• 1.2.2 强大高效的第三方库
• 1.2.3 轻松的代码结合能力
• 1.3 数据分析领域的应用场景
• 1.3.1 医疗健康
• 1.3.2 交通出行
• 1.3.3 商业策略
• 1.3.4 经济金融
• 1.3.5 城乡规划
• 1.3.6 气候变化
• 1.3.7 科研及自动化办公
• 1.4 本章小结
• 第2章 初识Python
• 2.1 Python语言特点
• 2.2 Python安装方式
• 2.2.1 Anaconda安装
• 2.2.2 官网安装
• 2.3 Python集成开发环境
• 2.3.1 Jupyter Notebook
• 2.3.2 Spyder
• 2.3.3 PyCharm
• 2.4 本章小结
• 第3章 Python基础
• 3.1 变量与赋值
• 3.1.1 变量
• 3.1.2 赋值
• 3.2 输入与输出
• 3.2.1 输入
• 3.2.2 输出
• 3.3 Python对象
• 3.3.1 Python对象的概念
• 3.3.2 变量与对象的关系
• 3.4 数据类型
• 3.4.1 数字
• 3.4.2 字符串
• 3.4.3 列表
• 3.4.4 元组
• 3.4.5 字典
• 3.4.6 集合
• 3.5 运算符与表达式
• 3.5.1 算术运算符
• 3.5.2 比较运算符
• 3.5.3 逻辑运算符
• 3.5.4 位运算符
• 3.5.5 赋值运算符
• 3.5.6 成员运算符
• 3.5.7 身份运算符
• 3.6 选择结构
• 3.6.1 if语句
• 3.6.2 if - else语句
• 3.6.3 if - elif - else语句
• 3.7 循环结构
• 3.7.1 while循环
• 3.7.2 for循环
• 3.7.3 循环嵌套
• 3.7.4 循环控制语句
• 3.8 综合示例
• 3.9 本章小结
• 第4章 Pandas入门
• 4.1 初识Pandas
• 4.1.1 Pandas概述
• 4.1.2 安装Pandas
• 4.2 Pandas家族成员
• 4.2.1 Series对象
• 4.2.2 DataFrame对象
• 4.3 索引
• 4.3.1 什么是索引
• 4.3.2 索引的作用
• 4.3.3 Series对象的索引
• 4.3.4 DataFrame对象的索引
• 4.4 综合案例——构建身体数据并计算体质指数
• 4.5 实战练习
• 第5章 数据读取与处理
• 5.1 数据读取与写入
• 5.1.1 读取与写入Excel文件
• 5.1.2 读取与写入CSV文件
• 5.1.3 读取文本文件
• 5.1.4 读取HTML网页
• 5.2 读取数据库中的数据
• 5.2.1 读取MySQL数据库中的数据
• 5.2.2 读取MongoDB数据库中的数据
• 5.3 数据抽取
• 5.3.1 按行抽取数据
• 5.3.2 抽取多行数据
• 5.3.3 抽取指定列数据
• 5.3.4 抽取指定的行、列数据
• 5.4 数据的增、删、改、查
• 5.4.1 增加数据
• 5.4.2 删除数据
• 5.4.3 修改数据
• 5.4.4 查询数据
• 5.5 数据排序与排名
• 5.5.1 数据排序
• 5.5.2 数据排名
• 5.6 综合案例——电商产品转化率分析
• 5.7 实战练习
• 第6章 数据清洗
• 6.1 处理缺失值
• 6.1.1 什么是缺失值
• 6.1.2 查看缺失值
• 6.1.3 处理缺失值
• 6.2 处理重复值
• 6.3 异常值的检测与处理
• 6.4 字符串操作
• 6.4.1 字符串对象方法
• 6.4.2 字符串替换方法
• 6.5 数据转换
• 6.5.1 使用字典映射进行数据转换
• 6.5.2 数据分割
• 6.5.3 分类数据数字化
• 6.6 综合案例——缺失值比例分析
• 6.7 实战练习
• 第7章 数据计算与分组统计
• 7.1 数据计算
• 7.1.1 求和
• 7.1.2 求均值
• 7.1.3 求最大值
• 7.1.4 求最小值
• 7.1.5 求中位数
• 7.1.6 求众数
• 7.1.7 求方差
• 7.1.8 标准差
• 7.1.9 求分位数
• 7.2 数据格式化
• 7.2.1 设置小数位数
• 7.2.2 设置百分比
• 7.2.3 设置千位分隔符
• 7.3 数据分组统计
• 7.3.1 分组统计函数groupby()
• 7.3.2 对分组数据进行迭代
• 7.3.3 对分组的某列或多列使用聚合函数
• 7.3.4 通过字典和Series对象进行分组统计
• 7.4 数据移位
• 7.5 数据合并
• 7.5.1 merge()方法
• 7.5.2 concat()方法
• 7.6 数据透视表
• 7.6.1 pivot()方法
• 7.6.2 pivot_table()方法
• 7.7 综合案例——商品月销量对比分析
• 7.8 实战练习
• 第8章 日期处理与时间序列
• 8.1 日期数据处理
• 8.1.1 DataFrame的日期数据转换
• 8.1.2 dt对象的使用
• 8.1.3 获取日期间的数据
• 8.1.4 按不同时期统计并显示数据
• 8.2 日期范围、频率和移位
• 8.2.1 生成日期范围
• 8.2.2 日期频率转换
• 8.2.3 移位日期
• 8.3 时间区间与频率转换
• 8.3.1 创建时间区间
• 8.3.2 频率转换
• 8.4 重采样与频率转换
• 8.4.1 重采样
• 8.4.2 降采样处理
• 8.4.3 升采样处理
• 8.5 移动窗口函数
• 8.5.1 时间序列数据汇总
• 8.5.2 移动窗口数据计算
• 8.6 综合案例——股票行情数据分析
• 8.7 实战练习
• 第9章 可视化数据分析图表
• 9.1 数据分析图表的作用
• 9.2 如何选择适合的图表类型
• 9.3 数据分析图表的基本组成
• 9.4 Matplotlib概述
• 9.4.1 Matplotlib简介
• 9.4.2 安装Matplotlib
• 9.4.3 Matplotlib图表之初体验
• 9.5 图表的常用设置
• 9.5.1 基本绘图函数plot()
• 9.5.2 设置画布
• 9.5.3 设置坐标轴
• 9.5.4 为体温折线图设置标题
• 9.5.5 设置标题和图例
• 9.5.6 添加注释
• 9.5.7 调整图表与画布边缘的间距
• 9.5.8 设置坐标轴
• 9.6 常用图表的绘制
• 9.6.1 绘制折线图
• 9.6.2 绘制柱状图
• 9.6.3 绘制直方图
• 9.6.4 绘制饼图
• 9.6.5 绘制散点图
• 9.6.6 绘制面积图
• 9.6.7 绘制热力图
• 9.6.8 绘制箱形图
• 9.6.9 绘制3D图表
• 9.6.10 绘制多个子图表
• 9.7 Seaborn图表
• 9.7.1 Seaborn图表概述
• 9.7.2 Seaborn图表之初体验
• 9.7.3 Seaborn图表的基本设置
• 9.7.4 常用图表的绘制
• 9.8 综合案例——京东电商单品销量同比增长情况分析
• 9.9 实战练习
• 第10章 机器学习Scikit - Learn
• 10.1 Scikit - Learn简介
• 10.2 安装Scikit - Learn
• 10.3 线性模型
• 10.3.1 最小二乘法回归
• 10.3.2 岭回归
• 10.4 支持向量机
• 10.5 聚类
• 10.5.1 什么是聚类
• 10.5.2 聚类算法
• 10.5.3 聚类模块
• 10.5.4 聚类数据生成器
• 10.6 综合案例——预测考试成绩
• 10.7 实战练习
• 第11章 处理大型数据集
• 11.1 概述
• 11.2 案例效果预览
• 11.3 案例准备
• 11.4 业务流程
• 11.5 实现过程
• 11.5.1 数据准备
• 11.5.2 数据分块
• 11.5.3 查看与处理数据
• 11.5.4 保存分块数据
• 11.5.5 合并分块数据
• 11.6 关键技术
• 第12章 快速批量合并和处理Excel
• 12.1 概述
• 12.2 案例效果预览
• 12.3 案例准备
• 12.4 业务流程
• 12.5 实现过程
• 12.5.1 数据准备
• 12.5.2 将多个Excel合并为一个Excel
• 12.5.3 合并指定的Excel的指定列到一个Excel
• 12.5.4 合并指定的Excel到一个Excel的多个Sheet
• 12.5.5 批量合并文件夹中所有的Excel的多个Sheet
• 12.6 关键技术
• 第13章 爬取分析NBA球员薪资数据
• 13.1 概述
• 13.2 案例效果预览
• 13.3 案例准备
• 13.4 业务流程
• 13.5 实现过程
• 13.5.1 数据准备
• 13.5.2 确定网页格式
• 13.5.3 爬取数据
• 13.5.4 清洗数据
• 13.5.5 绘制水平柱形图分析湖人队薪资状况
• 13.6 关键技术
• 第14章 获取和分析股票行情数据
• 14.1 概述
• 14.2 案例效果预览
• 14.3 案例准备
• 14.4 业务流程
• 14.5 实现过程
• 14.5.1 安装第三方模块
• 14.5.2 获取股票历史数据
• 14.5.3 数据归一化处理
• 14.5.4 可视化股票走势图
• 14.5.5 股票收盘价格走势图
• 14.5.6 股票涨跌情况分析图
• 14.5.7 股票k线走势图
• 14.6 关键技术
• 第15章 基于文本数据的京东商家评论数据分析
• 15.1 概述
• 15.2 案例效果预览
• 15.3 案例准备
• 15.4 业务流程
• 15.5 实现过程
• 15.5.1 安装第三方模块
• 15.5.2 数据准备
• 15.5.3 数据清洗
• 15.5.4 总体评价状况分析