分类目录归档：人工智能

詹森 - 香农散度

116 views

定义
JS divergence（Jensen - Shannon divergence）即詹森 - 香农散度，是一种衡量两个概率分布之间相似性的度量方法。它基于信息论中的KL散度（Kullback - Leibler divergence）构建。对于两个概率分布(P)和(Q)，首先定义(M=\frac{1}{2}(P + Q))，那么JS散度的计算公式为(JSD(P||Q)= \frac{1}{2}KL(P||M)+\frac{1}{2}KL(Q||M))，其中(KL)散度(KL(A||B)=\sum_{x}A(x)\log\frac{A(x)}{B(x)})（在离散情况下）。本质上...

正态分布

218 views

定义
正态分布（Normal Distribution），也称为高斯分布（Gaussian Distribution），是一种非常重要的概率分布。它的概率密度函数是一个钟形曲线，其数学表达式为：(f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x - \mu)^{2}}{2\sigma^{2}}})，其中(\mu)是均值（mean），它决定了分布的中心位置；(\sigma)是标准差（standard deviation），它决定了分布的宽度或者说离散程度。当(x = \mu)时，函数取得最大值，曲线关于(x=\mu)对称。
特征
对称性：正态分布的...

BigGAN

184 views

BigGAN 概述

定义与背景 BigGAN 是生成对抗网络（GAN）领域中具有重要影响力的一种架构，旨在生成高分辨率、高质量且多样化的图像。它建立在传统 GAN 的基础之上，通过一系列创新的设计和改进来克服以往 GAN 在生成大规模、逼真图像时面临的诸多难题，比如生成图像的质量有限、容易出现模式崩溃（生成图像种类单一）以及难以控制生成内容等问题。
核心目标 其核心目标是能够根据给定的随机噪声向量以及可选的类别条件信息，生成出与真实图像在视觉上高度相似、细节丰富并且具有丰富多样性的图像，涵盖人脸、动物、风景等各类常见的图像类别，在图像生成任务中展现出强大的性能，为众多需要高质量图...

渐进式生成对抗网络

161 views

一、Progressive GAN（渐进式生成对抗网络）概述

定义与背景
Progressive GAN是生成对抗网络（GAN）的一种高级变体。GAN主要由生成器（Generator）和判别器（Discriminator）组成，通过两者的对抗训练来生成数据。而Progressive GAN在GAN的基础上，创新性地采用了渐进式的训练方法，以生成更高质量的图像等数据。
传统GAN在生成高分辨率图像时会面临一些问题，比如训练不稳定、生成的图像质量不高（容易出现模糊、细节缺失等情况）。Progressive GAN的出现就是为了解决这些问题，它能够生成具有丰富细节、高分辨率的图像，例如生成...

判别器-GAN

124 views

基本概念
在生成对抗网络（GAN）中，判别器（Discriminator）是其中一个核心组件。GAN主要由生成器（Generator）和判别器组成。生成器的目的是生成尽可能逼真的数据，而判别器的目的是区分输入的数据是来自真实的数据分布还是由生成器生成的假数据。
例如，以生成手写数字图像为例。生成器会尝试从随机噪声向量生成看起来像手写数字的图像。判别器则会接收真实的手写数字图像（来自数据集，如MNIST数据集）和生成器生成的手写数字图像，然后判断每个图像是真实的还是生成的。
数学原理
从数学角度看，设真实数据分布为(P_{data}(x))，生成器生成的数据分布为(P_{g}(x))。判...

COCO-数据集

137 views

COCO（Common Objects in Context）是一个大规模的用于对象检测、分割和字幕生成的数据集，其相关信息总结如下： 1. 重要通知 - LVIS 2021挑战赛和研讨会将在ICCV举行，2021年无COCO挑战赛，鼓励参与LVIS 2021挑战赛。 - 与开源工具FiftyOne合作，便于下载、可视化和评估COCO，FiftyOne可作为模型分析的评估工具。 2. 数据集特点 - 包含330K图像（超200K已标注）、150万个对象实例、80个对象类别、91个stuff类别、每张图像5条字幕、250,000个带关键点的人。 - 具有对象...

目标检测-

132 views

目标检测是计算机视觉领域中的一项重要任务，旨在从图像或视频中识别出特定目标的位置和类别，以下是详细介绍：

任务定义

输入一幅图像或一段视频，目标检测系统需要在其中找出感兴趣的目标物体，确定它们的位置和类别。位置通常用边界框（Bounding box）表示，类别可以是各种预定义的物体类别，如人、车、动物、物体等。

主要技术

传统目标检测方法：主要基于手工特征和机器学习算法，如Haar特征与Adaboost分类器结合的Viola-Jones算法，以及HOG特征与SVM分类器结合的方法。这些方法先通过手工设计的特征提取器提取图像特征，再使用分类器进行目标分类和定位。
基于深度学习的目标检...

非极大值抑制-DL

118 views

非极大值抑制（Non-Maximum Suppression，NMS）是目标检测中用于去除冗余检测框的一种重要算法，以下是关于它的详细介绍：

算法原理

在目标检测任务中，模型会对每个目标生成多个检测框，这些检测框可能有不同的置信度得分，并且会存在大量重叠的情况。NMS的目的就是在这些检测框中筛选出最具代表性的、置信度最高的检测框，同时抑制那些与它重叠度较高的冗余检测框。
算法首先根据检测框的置信度得分进行排序，选择得分最高的检测框作为基准框，然后计算其他检测框与该基准框的交并比（IoU）。如果某个检测框与基准框的IoU大于预先设定的阈值，则认为该检测框是冗余的，将其抑制（即从检测结果中...

交并比-DL

113 views

交并比（Intersection over Union，IoU）是目标检测和图像分割领域中用于衡量两个区域重叠程度的重要指标，以下是关于它的详细介绍：

定义

IoU是指两个区域（通常是预测的目标框与真实的目标框）的交集面积与并集面积的比值。其计算公式为：$IoU=\frac{A\cap B}{A\cup B}$，其中$A$和$B$分别表示两个区域，$A\cap B$表示它们的交集，$A\cup B$表示它们的并集。

取值范围及意义

取值范围：IoU的取值范围在0到1之间。
具体意义：当IoU为0时，表示两个区域没有任何重叠；当IoU为1时，表示两个区域完全重合；IoU的值越接近1，说明...

锚框-DL

145 views

锚框（Anchor Box）是目标检测算法中一个非常重要的概念，以下是关于它的详细介绍：

定义

锚框是在目标检测任务中，预先在图像上定义的一系列具有不同大小和宽高比的矩形框。这些矩形框以一定的规则在图像上均匀分布或按照特定的策略生成，作为目标可能存在的候选区域。

作用

确定目标位置：由于目标在图像中的位置和大小是未知的，锚框提供了一种先验知识，通过与真实目标的匹配，可以大致确定目标的位置和范围，为后续的精确检测和定位提供基础。
多尺度检测：不同大小和宽高比的锚框可以适应不同大小和形状的目标，能够在同一图像中检测到各种尺度的目标，提高了目标检测的鲁棒性和准确性。

生成方式

基于滑动窗...

从零构建开源智能系统

构建专属智能系统，AI赋能加速成为领域专家。