端到端学习-


  1. 定义与概念
  2. “端到端学习(End - to - End Learning)”是一种机器学习和深度学习的策略。在这种学习方式中,模型直接从原始数据输入(例如原始图像、原始文本等)开始学习,自动提取特征并生成最终的输出(例如分类结果、翻译后的文本等),中间不需要人工设计和提取复杂的特征。也就是说,整个学习过程是一个从输入到输出的完整流程,模型自身去学习如何将输入数据转换为正确的输出,就像一条完整的管道,数据从一端输入,经过模型内部的各种处理,直接在另一端得到期望的输出。

  3. 工作原理与流程

  4. 以图像分类为例:在传统的图像分类方法中,可能需要先使用手工特征提取方法(如SIFT - 尺度不变...

Read more

卷积神经网络CNN对缩放和旋转的敏感性


  1. 理解卷积神经网络(CNN)对缩放和旋转的敏感性
  2. 卷积神经网络的工作原理基础:CNN主要是通过卷积层中的卷积核在输入数据(如图像)上滑动来提取特征。卷积核学习到的是特定局部区域的特征模式,这些模式在一定程度上与输入数据的空间布局相关。例如,在图像中,卷积核可能学习到边缘、角落等特征,并且这些特征的位置和相对大小在卷积核的学习过程中是有一定固定模式的。
  3. 缩放问题:当图像发生缩放时,CNN的性能会受到影响。假设一个卷积核学习到了某个物体在特定大小下的特征模式,比如一张正常大小的人脸图像中眼睛的形状特征。如果图像被放大,眼睛的大小相对于卷积核所学习的模式发生了变化,原来的卷积核可能无法很好地匹...

Read more

浅层模型-


  1. 定义与分类
  2. 浅层模型是指在机器学习和数据挖掘领域中,那些结构相对简单、不具备很多隐藏层(如神经网络中的隐藏层或者模型复杂层次结构)的模型。
  3. 线性模型
    • 线性回归(Linear Regression)是典型的浅层模型。它假设因变量和自变量之间存在线性关系,通过最小二乘法等方法拟合一条直线(在多元情况下是一个超平面)来预测目标变量。例如,在预测房屋价格时,根据房屋面积、房间数量等自变量构建线性回归模型,找到最佳的权重系数,使得预测价格与实际价格的误差平方和最小。
    • 逻辑回归(Logistic Regression)主要用于二分类问题。它将线性函数的输出通过Sigmoid函数映射到((0,1)...

Read more

devops 工具集


  1. 版本控制工具
  2. Git
    • 概述:目前最流行的分布式版本控制系统。它允许开发团队对代码的版本进行管理,记录代码的变更历史,包括谁在何时修改了什么内容。
    • 功能特点
    • 分支管理功能强大,方便开发人员同时在多个功能分支上工作,如开发新功能、修复bug等,而不会相互干扰。例如,一个开发团队可以为每个新功能创建一个单独的分支,在分支上进行开发和测试,完成后再合并到主分支。
    • 支持分布式工作流程,每个开发人员都可以在本地拥有完整的代码仓库副本。这意味着即使在没有网络连接的情况下,开发人员也可以在本地提交代码变更,之后再将这些变更推送到远程仓库。
  3. Subversion(SVN)

    • 概述:集中式版本控制...

Read more

ModelScope-开源社区推动人工智能发展的平台


ModelScope是一个通过开源社区推动人工智能发展的平台,涵盖多种功能,包括提供丰富的模型、支持多种任务、拥有模型训练和评估工具、具备展示空间等,旨在帮助用户快速开发和应用人工智能技术。 1. 平台功能概述 - 模型与任务支持:提供多种类型的模型,如InternVL2_5 - 78B、Llama - 3.3 - 70B - Instruct、Qwen系列等,涵盖计算机视觉、自然语言处理、语音、多模态、科学计算等多个领域的任务,如视觉检测、文本分类、语音识别、图像生成等。 - 数据集资源:包含Infinity - Instruct、P - MMEval、longwrit...

Read more

CodeFuse-DevOps-Model-开源的中文开发运维大模型


CodeFuse-DevOps-Model是一系列开源的中文开发运维大模型,主要用于解决DevOps领域的问题,提供了模型下载、评测、快速使用、训练及量化等相关内容。 1. 模型概述 - 模型研发:基于Qwen系列模型,使用高质量中文DevOps语料加训得到Base模型,再经DevOps QA数据对齐产出Chat模型。 - 模型下载:提供了7B和14B的基座模型(Base)和对齐模型(Chat),可从🤗Huggingface和🤖ModelScope获取,部分量化模型即将推出。 2. 模型评测 - 评测数据选取:在CMMLU和CEval评测数据集中选取与DevOps...

Read more

感知机-


感知机(Perceptron)作为神经网络的基础单元,以下将从定义、原理、学习算法、实现示例等多个方面对其进行深入剖析:

定义与基本结构

  • 定义:感知机是一种二分类的线性分类模型,它是神经网络的基本组成单元,由输入层、输出层组成,有时会带有一个偏置单元。
  • 基本结构:输入层接收外部输入信号,每个输入信号对应一个权重,表示该输入对输出的影响程度。偏置单元用于调整神经元的激活阈值,在计算时与权重类似。输出层根据输入信号的加权和与偏置的结果,通过激活函数产生最终的输出。

工作原理

  • 前向传播:在工作时,感知机将输入数据与相应的权重相乘,然后将所有乘积相加,再加上偏置项,得到一个净输入值。将净输...

Read more

Qwen-阿里云推出的通义千问大语言模型


Qwen是阿里云推出的通义千问大语言模型及相关项目的官方仓库,包含多种语言模型,具备丰富功能和特性,支持多种使用和部署方式。 1. 模型概述 - 模型发布:开源了Qwen系列模型,包括基础语言模型Qwen - 1.8B、Qwen - 7B、Qwen - 14B、Qwen - 72B,以及聊天模型Qwen - 1.8B - Chat、Qwen - 7B - Chat、Qwen - 14B - Chat、Qwen - 72B - Chat。 - 模型特点 - 基础语言模型经过大量数据训练,在基准数据集上表现出色,如在MMLU、C - Eval、GSM8K等数据...

Read more

LLaMA - Factory-轻松高效微调大语言模型的项目


LLaMA - Factory是一个用于轻松高效微调大语言模型的项目,具有多种功能和特点,支持众多模型和训练方法,提供了丰富的数据集和便捷的使用方式。 1. 项目概述 - 目标:提供统一高效的方式对100多种大语言模型进行微调。 - 功能特点 - 支持多种模型,如LLaMA、ChatGLM、Qwen等系列。 - 集成多种训练方法,包括预训练、监督微调、奖励建模等。 - 具备可扩展资源,支持16位全量微调、冻结微调、LoRA及多种量化方式。 - 采用先进算法,如GaLore、BAdam、Adam - mini等...

Read more

Awesome-Domain-LLM-收集和梳理垂直领域的开源模型、数据集及评测基准


文档主要介绍了Awesome Domain LLM项目,该项目旨在收集和梳理垂直领域的开源模型、数据集及评测基准,推动大模型在各行各业的应用。 1. 模型分类 - 通用模型:整理了常用的开源通用模型,如LLaMA2、ChatGLM3 - 6B、Qwen、Baichuan2、InternLM等,包括模型大小、所属机构和相关论文。 - 领域模型 - 医疗领域:包含ChiMed - GPT、AlpaCare、Taiyi、MentalLLaMA、WiNGPT2等众多模型,分别介绍了其基于的基础模型、训练方式、功能特点等,部分模型还开源了相关数据集。 ...

Read more