作者文章归档:course

LightGBM-


LightGBM是一个使用基于树的学习算法的梯度提升框架,具有分布式和高效的特点,以下是对其优点的详细介绍:

更快的训练速度和更高的效率

  • 基于直方图的算法:LightGBM采用直方图算法来构建决策树,它将连续的浮点特征值离散化成整数,并构造相应的直方图。在遍历数据时,根据离散化后的值在直方图中累积统计量,然后根据这些统计量来寻找最优的分割点。相比传统的预排序算法,直方图算法大大减少了计算量和内存消耗,从而提高了训练速度.
  • 单边梯度采样(GOSS):GOSS根据信息增益的定义,认为具有较大梯度的数据样本对信息增益的贡献更大。因此,在对数据样本进行下采样时,会保留梯度大的样本,并随机丢弃梯...

Read more

airbyte-概述


Airbyte是一款开源数据集成平台,专注于简化和标准化ETL流程,帮助用户整合多源数据。其核心优势在于提供300+预建连接器(支持自定义扩展),兼容云/本地部署, 并具备低代码配置界面,降低技术门槛。通过模块化架构支持实时同步与CDC(变更数据捕获),可无缝对接Snowflake、BigQuery等现代数据栈工具。开源特性促进社区协作迭代,企业版增强运维监控与权限管理,适用于从初创公司到大型企业的多样化数据管道需求,致力于解决数据孤岛问题。

官网

airbyte

Read more

NocoDB


NocoDB是一个允许用户无需编写代码即可构建数据库解决方案的平台,具有以下特点和功能: 1. 核心优势 - 类似电子表格的数据库构建:用户能够轻松地像使用电子表格一样构建在线数据库,无需编码技能,可自行选择自带数据库或使用平台提供的数据库,能处理数百万行数据。 - 数据主权与规模:重新定义了数据所有权,使用户对数据有直接访问权;可轻松扩展到数百万行数据,许多用户无需与销售人员沟通就能处理大规模数据。 - 适用广泛:秉持强大的开源精神,适用于各种规模和类型的企业,包括代理机构、初创公司、中小企业和大型企业。 - 高API吞吐量:具备可靠的基础设施,支持流畅...

Read more

LSTM


长短期记忆网络(LSTM,Long Short-Term Memory) 是一种特殊的循环神经网络(RNN),用于解决标准RNN在处理长序列时面临的梯度消失问题。LSTM通过引入多个门控机制,能够在较长的时间范围内保持信息,从而有效地捕捉长时间依赖关系。LSTM在自然语言处理(NLP)、语音识别、机器翻译、时间序列预测等领域得到了广泛应用。


1. LSTM的基本结构

LSTM的关键创新是其内部结构与标准RNN的不同,它引入了记忆单元(cell state),并使用门控机制控制信息的流动。LSTM的基本单元由四个主要组成部分:输入门(input gate)遗忘门(forget gate...

Read more