- PCA(主成分分析)在机器学习(ML)中的基础概念
- 定义:PCA是一种无监督的线性降维技术,广泛应用于机器学习领域。它的主要目的是在尽可能保留数据原始信息(方差)的情况下,将高维数据转换为低维数据。从数学角度讲,PCA通过对数据协方差矩阵进行特征分解,找到数据中方差最大的方向作为主成分。
- 原理示例:假设我们有一个二维数据集,数据点分布在一个倾斜的椭圆区域内。PCA会找到这个椭圆的长轴和短轴方向,长轴方向是数据方差最大的方向,定义为第一主成分;短轴方向是与长轴正交且方差次大的方向,定义为第二主成分。如果我们要将数据从二维降到一维,就可以选择保留长轴方向的数据投影,这样在一定程度上保留了数...
分类目录归档:运维
数据分析教程大纲:从入门到精通
数据分析教程大纲:从入门到精通
第一部分:数据分析基础
- 数据分析简介
- 数据分析的定义和重要性
- 数据分析的应用领域(商业、金融、医疗、科研等)
-
数据分析流程概览(数据采集、清洗、分析、可视化、建模、报告)
-
数据类型与结构
- 定性数据与定量数据
- 结构化数据与非结构化数据
- 数据库、数据表、数据框和数组
-
时间序列数据、文本数据、图像数据
-
常用工具与环境
- Python 数据分析工具:NumPy、Pandas、Matplotlib、Seaborn、Scikit-learn
- 数据库工具:SQL、NoSQL
-
数据可视化工具:Power BI、Tableau、Excel
-
数据分析的...
假设检验
Hypothesis Testing(假设检验)是统计学中的一种方法,用于通过样本数据来验证一个关于总体(或分布)特征的假设。通过假设检验,研究人员能够评估样本数据是否支持一个特定的假设,或者是否需要拒绝该假设。
关键步骤:
- 提出假设:
- 零假设(Null Hypothesis, H₀):零假设通常表示没有效应或没有差异,或者观察到的现象是由随机因素引起的。它是需要被检验和可能被拒绝的假设。
- 备择假设(Alternative Hypothesis, H₁):备择假设通常表示存在某种效应或差异,或者观察到的现象不是偶然发生的。
例如: - H₀: 样本的平均值等于某个特定值(例如,...
插补(Imputation)技术
插补(Imputation)技术是用来处理数据集中的缺失值的技术。缺失数据是数据分析中常见的问题,而插补缺失值对于保证数据集的完整性和有效性非常重要。插补的目标是通过合理的估算方法,填充缺失的数据值,从而使数据能够用于进一步分析或建模。
以下是常见的插补技术:
1. 均值/中位数/众数插补
-
均值插补:用该特征(列)的均值来替代缺失值。
- 适用于数据分布较对称的数值型数据。
- 限制:如果数据分布偏斜或存在异常值,均值插补可能会引入偏差。
-
中位数插补:用该特征的中位数来替代缺失值。
- 对于数据中有异常值的情况,中位数比均值更稳健。
- 限制:通常不适用于分类数据。
-
众数插补:用该特...
马尔可夫过程-随机过程
马尔可夫过程(Markov Process)是一种随机过程,其中系统的未来状态仅与当前状态有关,而与过去的状态无关。换句话说,马尔可夫过程满足“无记忆性”或“马尔可夫性质”,即系统的状态转移只依赖于当前状态,和之前的历史状态无关。
1. 马尔可夫过程的基本特性
- 无记忆性:当前状态完全决定了未来状态,过去的状态对未来没有任何影响。这是马尔可夫过程最核心的特性。
- 状态空间:马尔可夫过程的状态空间可以是离散的(有限的或可数的)或连续的。状态空间是所有可能状态的集合。
- 转移概率:从一个状态转移到另一个状态的概率是固定的,称为转移概率。通常用一个转移矩阵(在离散情况下)或转移函数(在连续情况下)...
进行数据分析项目时涉及哪些步骤
进行数据分析项目时,通常需要遵循一系列系统化的步骤来确保数据分析的高效性和准确性。以下是常见的 数据分析项目流程,包括从数据收集到最终报告的各个阶段:
1. 问题定义与目标明确
- 理解业务问题:明确数据分析的目标、背景和预期结果。与相关利益方(如业务部门、客户或管理层)沟通,确保分析目标与业务目标一致。
- 定义关键问题:确定需要解决的核心问题或假设,例如:预测销售额、识别客户流失原因、提高广告投放效果等。
- 设定具体目标:确定分析项目的可衡量目标,明确期望得到什么样的结果,如趋势预测、模式识别或业务决策支持。
2. 数据收集与获取
- 确定数据源:明确从哪里获取数据,可能的数据源包括:
- 内部...
层次聚类
层次聚类(Hierarchical Clustering)是一种聚类分析方法,通过构建层次结构树(树状图,Dendrogram)将样本数据逐渐合并或划分为不同的群组(簇)。层次聚类不同于K-means等非层次的聚类算法,它不需要提前指定簇的数量,而是通过树形结构自底向上或自顶向下地聚类。
层次聚类的两种主要方法:
- 凝聚式层次聚类(Agglomerative Hierarchical Clustering):
-
这种方法是自底向上的。它从每个数据点开始,每个数据点作为一个独立的簇。然后,逐步合并相似度最高的两个簇,直到所有数据点都合并成一个簇。
-
分裂式层次聚类(Divisive Hi...
K-最近邻算法的缺失值填充方法-KNN
KNN Imputation(K-Nearest Neighbors Imputation)是一种基于K-最近邻算法的缺失值填充方法,广泛应用于数据分析和机器学习中。当数据集中存在缺失值时,KNN imputation可以通过相似的样本来推测缺失值。该方法的基本思路是:利用相似数据点(邻居)填补缺失值,假设相似的样本之间有相似的属性值。
KNN Imputation 的原理
KNN imputation 基于以下几个步骤:
- 计算距离:
-
对于每个包含缺失值的样本,通过计算其他样本之间的相似性(通常使用欧几里得距离、曼哈顿距离或其他距离度量方法)来找到与缺失值样本相似的K个最近邻。
- ...
离群值
离群值(Outlier)是指在数据集中,与大多数其他数据点显著不同的数据点。换句话说,离群值是一个异常值,它与数据的整体趋势和模式偏差较大。离群值可能是由于数据录入错误、数据变异性或真实的稀有事件等原因引起的。
离群值的特点:
- 极端值:离群值通常远离数据的平均值或中位数。根据数据的分布,离群值可能远大于或远小于其他数据点。
- 不符合模式:离群值通常不符合数据的普遍规律或趋势,是一种异常情况。
- 统计意义:离群值往往会超出通过统计方法(例如1.5倍四分位间距法、标准差法等)计算出的某个范围。
离群值的类型:
- 全局离群值(点离群值):
-
这种离群值指的是数据集中明显偏离其他数据点的个别数据...
数据分析工具集
在数据分析过程中,使用合适的工具和技术能够提高分析效率和质量。数据分析工具集涵盖了从数据收集、清洗、可视化、分析到报告生成等多个方面。根据不同的需求和业务场景,可以选择不同的工具。以下是常见的数据分析工具集,按功能分类。
1. 数据收集与采集工具
这些工具用于从不同的数据源(如数据库、网页、API等)收集和提取数据。
- Python(BeautifulSoup, Requests):
-
用于网页抓取和数据提取,支持从网站和API获取数据。
-
Scrapy:
-
一个强大的网页抓取框架,适合大规模的数据抓取和处理。
-
Apache Nifi:
-
用于数据流管理,可以处理数据的自动化采...