作者文章归档:course

Teacher forcing


  1. 定义
  2. Teacher forcing是一种在序列生成模型(如循环神经网络,特别是长短期记忆网络LSTM和门控循环单元GRU,以及Transformer架构中的解码器部分)训练过程中使用的技术。它的核心思想是在训练时,使用真实的目标序列(也称为“教师信号”)作为模型下一个时间步的输入,而不是使用模型自身在上一个时间步的预测输出。
  3. 工作原理
  4. 假设我们有一个序列生成任务,例如机器翻译。我们有一个源语言句子和对应的目标语言句子。在训练模型时,对于目标语言句子的生成部分,在每个时间步,不是将模型上一个时间步预测出来的单词作为下一个时间步的输入,而是直接将真实的目标单词作为输入。
  5. 例如,目标句子是...

Read more

UFO-UI为中心的多模态智体框架


你可能想问的是微软的UFO智能体框架,它并非一个传统意义上的操作系统,而是一个以UI为中心的多模态智体框架,专为Windows操作系统交互而设计。以下是对其的详细介绍:

基本信息

  • 名称由来:UFO全称“UI-Focused Agent”,即面向用户界面的智能体。
  • 研发团队:由微软亚洲研究院(MSRA)、微软AI与应用研究团队等共同打造。

工作原理

  • 理解用户请求:UFO首先会理解用户用自然语言表达的请求,将其分解为一系列循序渐进的子任务。
  • 选择应用程序:应用程序选择智体(AppAgent)会根据用户请求、桌面屏幕截图、应用程序信息、记忆等,选择一个合适的应用程序来满足用户请求,并制定...

Read more

梯度剪裁


梯度剪裁(Gradient Clipping)是一种在深度学习中用于优化训练过程的技术,旨在解决梯度爆炸问题,以下是关于它的详细介绍:

原理

在神经网络的训练过程中,通常使用反向传播算法来计算损失函数对模型参数的梯度,然后根据这些梯度来更新模型参数。然而,在某些情况下,如网络层数较深、训练数据复杂或学习率设置不当等,梯度可能会变得非常大,导致模型参数在更新时出现大幅跳跃,这就是梯度爆炸问题。梯度剪裁通过对梯度进行限制,将其范数约束在一个特定的范围内,从而避免梯度爆炸对模型训练的不良影响。

实现方法

  • 基于范数的剪裁:这是最常见的梯度剪裁方法,通常是计算梯度的范数(如L2范数),如果梯度的...

Read more

autossh-保持 SSH 隧道的工具


autossh:用于保持 SSH 隧道的工具

autossh 是一个用于自动重连和保持 SSH 会话的工具,特别适用于需要长期保持 SSH 隧道连接的场景。如果 SSH 会话意外断开(例如网络中断或主机故障),autossh 会自动重新建立连接,非常适合 MongoDB 副本集反向隧道配置。


安装 autossh

1. 在 Ubuntu 上安装

sudo apt update
sudo apt install autossh

2. 在 Windows 上使用

  • Windows 系统本身不支持 autossh,可以借助 WSL(Windows Subsystem for Linux)...

Read more

反向SSH隧道


反向 SSH 隧道

反向 SSH 隧道是解决内外网通信问题的一种简单高效的方法,特别适用于内网主节点无法直接暴露给外网的场景。以下是详细的操作步骤和原理:


原理

  1. 建立隧道:通过 SSH 隧道技术,让内网主节点主动连接到外网的机器。
  2. 端口转发:把内网 MongoDB 的服务端口(27017)映射到外网机器的某个端口(例如 27018)。
  3. 外网访问内网 MongoDB:外网服务器通过本地端口(27018)访问隧道中转的内网 MongoDB 实例。

实现步骤

1. 前置准备

检查 SSH 配置

  • 确保内网的 Windows 主机可以通过 SSH 连接到外网的 Ubuntu 服务器。
  • 确...

Read more

内网mongoDB与外网mongodb 实例数据库同步网络问题解决方案


你提的这个问题非常关键,也是配置副本集时需要仔细考虑的网络拓扑设计问题。MongoDB 副本集中的成员确实需要直接连通,这是因为:


MongoDB 副本集的工作原理要求直接连接

  1. 心跳机制(Heartbeat)
    MongoDB 副本集中的所有成员需要通过心跳机制相互通信,以监控其他成员的状态(如 PRIMARY 或 SECONDARY)。这就要求每个副本集成员都能直接连通其他成员的实例。

  2. 数据同步(Replication)
    SECONDARY 副本通过直接连接到 PRIMARY 副本的实例,获取 oplog(操作日志),并根据 oplog 更新自身的数据。这种数据同步...

Read more

mongodb 内网与外网mongodb 实例数据同步


要在 Windows(内网)Ubuntu(外网) 的两个 MongoDB 实例之间建立 副本集(Replica Set),并实现数据同步,可以按照以下步骤进行操作:


总体思路

  1. 在 Windows 和 Ubuntu 上分别安装 MongoDB
  2. 使用 Docker 容器部署 MongoDB 实例。
  3. Windows 中的 MongoDB 为主节点(Primary)。
  4. Ubuntu 中的 MongoDB 为副节点(Secondary)。

  5. 配置副本集(Replica Set)

  6. 在两台服务器上启用副本集模式。
  7. 确保 Windows 可以通过内网访问外网的 Ubuntu 实...

Read more

lambda-Python


在 Python 中,lambda 是一种创建匿名函数(没有名称的函数)的方法,通常用于实现一些简单的、一次性的操作。它特别适合与高阶函数(如 mapfiltersorted)结合使用。

lambda 的语法

lambda 参数: 表达式
  • 参数:用逗号分隔的参数列表。
  • 表达式:一个单行表达式,执行后会返回结果。

示例:lambda 的实际应用

1. 基础示例

add = lambda x, y: x + y
print(add(2, 3))  # 输出: 5

2. map 配合

将列表中的每个元素平方:

numbers = [1, 2, 3, 4]
squared...

Read more

困惑度-


在自然语言处理和信息论等领域,“perplexity”通常指困惑度,是一种用于衡量语言模型性能的指标,以下是关于它的详细介绍:

定义

困惑度是对语言模型在预测下一个单词或字符时的不确定性的一种量化度量。它基于信息论中的熵(entropy)概念,直观上反映了语言模型对给定文本序列的拟合程度和预测能力。给定一个语言模型(M)和一个文本序列(x_1,x_2,\cdots,x_n),该文本序列的困惑度定义为:

[PP(x_1,x_2,\cdots,x_n)=2^{-\frac{1}{n}\sum_{i=1}^{n}\log_2 p(x_i|x_1,x_2,\cdots,x_{i-1})}]

其中...

Read more

候选隐藏状态


在深度学习的循环神经网络(RNN)及其变体如长短期记忆网络(LSTM)和门控循环单元(GRU)中,“候选隐藏状态”是一个关键概念,以下是对它的详细介绍:

定义

候选隐藏状态是在计算当前时刻隐藏状态时的一个中间结果,它综合了当前输入和上一时刻隐藏状态经过一定变换后的信息,为最终确定当前时刻隐藏状态提供了基础。

计算方式

  • LSTM中的候选隐藏状态:在长短期记忆网络中,候选隐藏状态通常用(\widetilde{C}{t})表示,其计算公式为(\widetilde{C}=\tanh\left(W_{c}\left[h_{t - 1}, x_{t}\right]+b_{c}\right))。其中...

Read more