作者文章归档:course

浅层模型-


  1. 定义与分类
  2. 浅层模型是指在机器学习和数据挖掘领域中,那些结构相对简单、不具备很多隐藏层(如神经网络中的隐藏层或者模型复杂层次结构)的模型。
  3. 线性模型
    • 线性回归(Linear Regression)是典型的浅层模型。它假设因变量和自变量之间存在线性关系,通过最小二乘法等方法拟合一条直线(在多元情况下是一个超平面)来预测目标变量。例如,在预测房屋价格时,根据房屋面积、房间数量等自变量构建线性回归模型,找到最佳的权重系数,使得预测价格与实际价格的误差平方和最小。
    • 逻辑回归(Logistic Regression)主要用于二分类问题。它将线性函数的输出通过Sigmoid函数映射到((0,1)...

Read more

devops 工具集


  1. 版本控制工具
  2. Git
    • 概述:目前最流行的分布式版本控制系统。它允许开发团队对代码的版本进行管理,记录代码的变更历史,包括谁在何时修改了什么内容。
    • 功能特点
    • 分支管理功能强大,方便开发人员同时在多个功能分支上工作,如开发新功能、修复bug等,而不会相互干扰。例如,一个开发团队可以为每个新功能创建一个单独的分支,在分支上进行开发和测试,完成后再合并到主分支。
    • 支持分布式工作流程,每个开发人员都可以在本地拥有完整的代码仓库副本。这意味着即使在没有网络连接的情况下,开发人员也可以在本地提交代码变更,之后再将这些变更推送到远程仓库。
  3. Subversion(SVN)

    • 概述:集中式版本控制...

Read more

ModelScope-开源社区推动人工智能发展的平台


ModelScope是一个通过开源社区推动人工智能发展的平台,涵盖多种功能,包括提供丰富的模型、支持多种任务、拥有模型训练和评估工具、具备展示空间等,旨在帮助用户快速开发和应用人工智能技术。 1. 平台功能概述 - 模型与任务支持:提供多种类型的模型,如InternVL2_5 - 78B、Llama - 3.3 - 70B - Instruct、Qwen系列等,涵盖计算机视觉、自然语言处理、语音、多模态、科学计算等多个领域的任务,如视觉检测、文本分类、语音识别、图像生成等。 - 数据集资源:包含Infinity - Instruct、P - MMEval、longwrit...

Read more

CodeFuse-DevOps-Model-开源的中文开发运维大模型


CodeFuse-DevOps-Model是一系列开源的中文开发运维大模型,主要用于解决DevOps领域的问题,提供了模型下载、评测、快速使用、训练及量化等相关内容。 1. 模型概述 - 模型研发:基于Qwen系列模型,使用高质量中文DevOps语料加训得到Base模型,再经DevOps QA数据对齐产出Chat模型。 - 模型下载:提供了7B和14B的基座模型(Base)和对齐模型(Chat),可从🤗Huggingface和🤖ModelScope获取,部分量化模型即将推出。 2. 模型评测 - 评测数据选取:在CMMLU和CEval评测数据集中选取与DevOps...

Read more

感知机-


感知机(Perceptron)作为神经网络的基础单元,以下将从定义、原理、学习算法、实现示例等多个方面对其进行深入剖析:

定义与基本结构

  • 定义:感知机是一种二分类的线性分类模型,它是神经网络的基本组成单元,由输入层、输出层组成,有时会带有一个偏置单元。
  • 基本结构:输入层接收外部输入信号,每个输入信号对应一个权重,表示该输入对输出的影响程度。偏置单元用于调整神经元的激活阈值,在计算时与权重类似。输出层根据输入信号的加权和与偏置的结果,通过激活函数产生最终的输出。

工作原理

  • 前向传播:在工作时,感知机将输入数据与相应的权重相乘,然后将所有乘积相加,再加上偏置项,得到一个净输入值。将净输...

Read more

Qwen-阿里云推出的通义千问大语言模型


Qwen是阿里云推出的通义千问大语言模型及相关项目的官方仓库,包含多种语言模型,具备丰富功能和特性,支持多种使用和部署方式。 1. 模型概述 - 模型发布:开源了Qwen系列模型,包括基础语言模型Qwen - 1.8B、Qwen - 7B、Qwen - 14B、Qwen - 72B,以及聊天模型Qwen - 1.8B - Chat、Qwen - 7B - Chat、Qwen - 14B - Chat、Qwen - 72B - Chat。 - 模型特点 - 基础语言模型经过大量数据训练,在基准数据集上表现出色,如在MMLU、C - Eval、GSM8K等数据...

Read more

LLaMA - Factory-轻松高效微调大语言模型的项目


LLaMA - Factory是一个用于轻松高效微调大语言模型的项目,具有多种功能和特点,支持众多模型和训练方法,提供了丰富的数据集和便捷的使用方式。 1. 项目概述 - 目标:提供统一高效的方式对100多种大语言模型进行微调。 - 功能特点 - 支持多种模型,如LLaMA、ChatGLM、Qwen等系列。 - 集成多种训练方法,包括预训练、监督微调、奖励建模等。 - 具备可扩展资源,支持16位全量微调、冻结微调、LoRA及多种量化方式。 - 采用先进算法,如GaLore、BAdam、Adam - mini等...

Read more

Awesome-Domain-LLM-收集和梳理垂直领域的开源模型、数据集及评测基准


文档主要介绍了Awesome Domain LLM项目,该项目旨在收集和梳理垂直领域的开源模型、数据集及评测基准,推动大模型在各行各业的应用。 1. 模型分类 - 通用模型:整理了常用的开源通用模型,如LLaMA2、ChatGLM3 - 6B、Qwen、Baichuan2、InternLM等,包括模型大小、所属机构和相关论文。 - 领域模型 - 医疗领域:包含ChiMed - GPT、AlpaCare、Taiyi、MentalLLaMA、WiNGPT2等众多模型,分别介绍了其基于的基础模型、训练方式、功能特点等,部分模型还开源了相关数据集。 ...

Read more

全连接层-


在深度学习中,Dense Layer(全连接层)是一种非常常见且重要的神经网络层,以下是对其的详细介绍:

定义与基本原理

  • 定义:Dense Layer也叫全连接层,是一种在神经网络中,当前层的每个神经元与前一层的所有神经元都相互连接的层,其神经元之间的连接是全连接的方式,即每个输入神经元都与每个输出神经元相连。
  • 基本原理:在全连接层中,输入数据被看作是一个一维向量,每个神经元对输入数据进行加权求和,并加上一个偏置项,然后通过一个激活函数得到输出。

数学表达式

  • 假设全连接层的输入为$x$,是一个维度为$n$的向量,权重矩阵为$W$,其形状为$(m, n)$,其中$m$是该层神经元的数...

Read more

交叉熵-


  1. 定义与概念
  2. 交叉熵(Cross - Entropy)是信息论中的一个概念,用于衡量两个概率分布之间的差异程度。给定两个概率分布(p)(真实分布)和(q)(预测分布),它们的交叉熵(H(p,q)=-\sum_{i}p(i)\log q(i))。这里(i)遍历所有可能的事件,并且假设概率分布是离散的;如果是连续分布,则用积分形式表示。例如,在一个简单的二分类问题中,假设真实标签的概率分布(p = [1,0])(表示正类概率为(1),负类概率为(0)),预测概率分布(q = [0.8,0.2]),那么交叉熵(H(p,q)=-(1\times\log0.8 + 0\times\log0.2)...

Read more