分类目录归档:机器学习

维度缩减


  1. 定义
  2. 维度缩减(Dimension Reduction),也称为降维,是一种在数据处理和分析过程中,通过将高维数据转换为低维数据来简化数据结构的技术。在许多实际的数据集(如基因数据、图像数据、文本数据等)中,数据可能具有很高的维度,这会带来诸如计算复杂度高、存储成本大、模型过拟合等问题。降维技术可以有效地解决这些问题。
  3. 主要方法
  4. 主成分分析(Principal Component Analysis,PCA)
    • 原理:PCA是一种最常用的线性降维方法。它的基本思想是通过寻找数据方差最大的方向来构建新的坐标轴(主成分),这些主成分是原始变量的线性组合。第一个主成分是能够解释数据最大方差的方向...

Read more

层次凝聚聚类


Hierarchical Agglomerative Clustering(层次凝聚聚类),是聚类分析中的一种重要方法。

  1. 基本原理
  2. 它是一种自底向上的聚类方法。开始时,每个数据点都被视为一个单独的聚类。然后,在每一步中,算法会根据某种相似度(或距离)度量标准,寻找最相似(距离最近)的两个聚类,并将它们合并为一个新的聚类。这个过程不断重复,直到满足某个停止条件,比如达到预定的聚类数量或者所有数据点都合并到一个聚类中。
  3. 例如,假设有5个数据点A、B、C、D、E。最初,聚类为{A}、{B}、{C}、{D}、{E}。如果根据距离度量发现A和B是最相似的,那么就将它们合并为一个新的聚类{AB},...

Read more

估计置信度


一、定义

“Estimate confidence”(估计置信度)主要是在统计学和机器学习等领域中使用的概念。它是指对某个估计结果(如参数估计、预测结果等)的可靠性或确定性程度的一种量化评估。

例如,在市场调研中,我们通过抽样调查来估计某产品的市场占有率。除了得到一个占有率的估计值(如30%)之外,还需要知道这个估计有多大的可信度,这就是估计置信度要解决的问题。

二、统计中的置信区间与置信水平

  1. 置信区间(Confidence Interval)
  2. 这是估计置信度的一种常见方式。它是一个区间范围,用于包含我们所估计的参数真实值。例如,我们要估计一个总体均值,通过样本数据计算出一个置信区间,...

Read more

开放集识别


一、定义

Open - set recognition(开放集识别)是一种在计算机视觉、模式识别等领域中使用的概念。它主要处理的情况是在训练阶段和测试阶段的数据分布不同,测试阶段会出现训练阶段没有见过的类别(即未知类别)的数据。

传统的分类任务(如闭集分类)假设测试数据中的类别都是在训练数据中出现过的,而开放集识别则更贴近现实世界的复杂情况。例如,在一个人脸识别系统的训练过程中,我们只使用了公司内部员工的人脸图像进行训练。但在实际使用场景中,可能会有外来人员(未知类别)出现在摄像头前,开放集识别就是要在识别出已知员工的同时,能够判断出未知人员。

二、关键要素

  1. 已知类别(Known Cl...

Read more

网络入侵检测


一、定义

Network intrusion detection(网络入侵检测)是一种用于监控计算机网络活动,识别任何试图破坏网络安全、未经授权访问网络资源或者恶意利用网络漏洞的安全技术。它的主要目的是在入侵行为对网络系统造成严重损害之前检测并发出警报,同时也可以协助收集有关入侵活动的证据。

例如,当外部攻击者试图通过端口扫描来寻找网络系统中的开放端口,以便后续发动攻击时,网络入侵检测系统可以检测到这种异常的扫描行为,并提醒网络管理员采取相应的防范措施。

二、工作原理

  1. 基于特征的检测(Signature - based Detection)
  2. 这种方法依赖于已知的攻击模式或“特征(Sig...

Read more

异常检测-ML


一、定义

Anomaly detection(异常检测)是指在数据集中识别与正常行为模式或预期模式显著不同的数据点或模式的过程。这些异常点可能代表了系统中的错误、故障、欺诈行为、安全漏洞或者其他罕见但具有重要意义的事件。

例如,在网络流量监测中,正常情况下流量的大小、频率和流向等都有一定的规律。如果突然出现大量的数据传输到一个异常的外部服务器,这就可能是数据泄露的异常行为;在工业生产中,机器正常运转时的温度、振动频率等参数在一个合理的范围内波动,当这些参数出现明显偏离正常范围的情况时,可能意味着机器出现故障。

二、应用场景

  1. 金融领域
  2. 信用卡欺诈检测:银行会记录每一笔信用卡交易的信息,包...

Read more

随机梯度下降


随机梯度下降(Stochastic Gradient Descent,SGD)是一种常用的优化算法,主要用于在机器学习和深度学习中,通过迭代的方式来最小化目标函数,以找到最优的模型参数。以下是关于随机梯度下降的详细介绍:

基本原理

  • 目标函数与梯度:在机器学习中,通常会定义一个目标函数来衡量模型的预测结果与实际结果之间的差异,如均方误差、交叉熵损失等。而梯度则是目标函数对模型参数的偏导数,它表示了目标函数在当前参数下的变化率,且其方向是目标函数增长最快的方向,因此负梯度方向就是目标函数下降最快的方向。
  • 迭代更新:随机梯度下降算法从随机初始化的模型参数开始,在每次迭代中,随机选取一个训练样...

Read more

计算任务-ML


在机器学习领域,“计算任务”是指在处理ML workload过程中涉及的各种需要进行计算操作的具体工作,以下是详细介绍:

数据预处理计算任务

  • 数据清洗:去除数据中的噪声、重复数据、缺失值等,可能需要编写代码来识别和处理这些问题。例如,使用Python的pandas库中的drop_duplicates函数去除重复行,使用fillna方法填充缺失值等。
  • 数据标准化与归一化:将数据的特征缩放到特定的范围,如将数据归一化到[0, 1]区间或标准化为均值为0、方差为1的分布。常见的方法有Min-Max归一化和Z-Score标准化,需要进行相应的数学运算。
  • 数据编码:对于分类数据,需要将其转换为计...

Read more

工作负载-ML


“ML workload”指的是机器学习(Machine Learning)工作负载,即运行机器学习任务所需要的计算资源、数据处理量以及模型训练和推理等操作的综合需求,以下是具体介绍:

主要特点

  • 计算密集型:通常需要大量的计算资源来进行数据处理、模型训练和优化。例如,深度神经网络的训练可能需要在多个GPU或TPU上并行计算,以加快训练速度。
  • 数据依赖性强:数据是机器学习的核心,ML workload对数据的质量、数量和多样性有很高要求。大规模的数据集需要高效的存储和读取机制,同时数据的预处理和标注工作也会增加工作负载。
  • 模型复杂度高:随着技术的发展,机器学习模型越来越复杂,如Trans...

Read more

无监督文本摘要


  1. 定义与概念
  2. 无监督文本摘要(Unsupervised Summarization)是一种自然语言处理任务,旨在在没有人工标注的摘要数据(如没有给定摘要样本作为训练参考)的情况下,自动从文本中提取或生成摘要。它主要依赖文本自身的特征,如词频、句子位置、语义相似性等来确定文本的关键内容,从而生成简洁、能够代表原文主要思想的摘要。

  3. 主要方法

  4. 基于统计的方法
    • 词频统计法:这种方法基于一个简单的假设,即文本中出现频率高的词往往是重要的词。例如,在一篇新闻报道中,反复出现的人名、地名、事件名称等高频词可能是关键信息。通过计算词频,选取包含高频词的句子来构成摘要。不过,这种方法的局限性在于,...

Read more