分类目录归档:个人成长

集成学习实战-高塔姆-Books


集成学习基础知识

集成方法: 炒作还是福音

基本集成方法

同质并行集成:Bagging法和随机森林

异质并行集成: 结合强学习起

顺序集成: 自适应提升

顺序集成: 梯度提升

顺序集成: 牛顿提升

集成之外: 将集成方法应用于你的数据

学习连续和计数标签

学习分类特征

集成学习可解释性

Read more

Python预测之美-数据分析与算法实战


预测入门

认识预测

什么是预测

占卜术

神秘的地动仪

科学预测

预测的原则

前沿技术

大数据与预测

大数据预测的特点

人工智能与预测

热工智能预测的特点

典型预测案例

Python 预测初步

数据预处理

建立模型

预测及误差分析

预测方法论

预测流程

确定主题

收集数据

选择方法

分析规律

建立模型

评估效果

发布模型

指导原则

界定问题

判断预测法

外推预测法

因果预测法

探索规律

相关分析

自相关分析

偏相关分析

简单相关分析

互相相关分析

典型相关分析

因果分析

什么是因果推断

因果推断的方法

时序因果推断

聚类分析

关联规则挖掘

Apriori 算法

Eclat 算法

序列模式挖...

Read more

精通API架构-设计,运维与演进-Books


导论

设计,构建和测试API

设计 构建和规范API

API 接口测试

API 流量管理

API 网关:入口流量管理

服务网格: 服务间流量管理

API 运维与安全

部署和发布API

运维安全性: API 的威胁建模

API 身份验证和授权

实用API 的演进架构

将应用程序重新设计为API 驱动的架构

实用API 基础设施向云平台演进

总结

Read more

特征编码:机器学习模型理解世界的桥梁


特征编码:机器学习模型理解世界的桥梁

在机器学习项目中,数据往往以各种形态呈现:用户ID、城市名称、产品类别、学历等级、日期时间……这些信息对人类而言含义清晰,但对绝大多数机器学习模型来说却如同天书。模型的核心是数学运算(向量、矩阵、梯度计算),它们只能直接处理数值型数据。这就是特征编码要解决的核心问题:将非数值型(类别型、文本型、时间型等)数据,转化为适合机器学习模型处理的数值型表示,同时尽可能保留或揭示原始数据中蕴含的有价值信息。

以下是特征编码解决的关键问题及其深层意义:

1. 解决数据格式兼容性问题:让模型“能看见”

  • 根本矛盾: 模型(如线性回归、SVM、神经网络、大部分树模型...

Read more

当AI化身金融研究员:一场投资研究的智能革命


当AI化身金融研究员:一场投资研究的智能革命

在金融的世界里,每一个决策都关乎真金白银,容不得半点马虎。而投资研究,更是这场财富博弈中最关键的一环。传统的投资研究,往往需要研究员们耗费大量的时间和精力去收集、整理和分析数据,过程繁琐且效率低下。但现在,随着人工智能技术的飞速发展,一场投资研究的智能革命正在悄然上演。今天,就让我们一起走进这场革命,看看AI是如何化身金融研究员,改变投资研究的格局的。

一、技术架构:智能投资研究的核心逻辑

在这场智能革命的背后,是一套精心设计的技术架构。从相关的技术展示中,我们可以清晰地看到,其核心在于“多智能体协作 + 记忆增强 + 人类反馈 + 数据驱动...

Read more

Embedding 原理概述


Embedding 原理概述

Embedding(嵌入)是机器学习和人工智能领域的核心概念,本质是将高维、离散、稀疏的数据(如文字、图片、音频、用户、商品等)转换为低维、连续、稠密的实数向量表示的过程。这些向量被称为嵌入向量(Embedding Vector),其神奇之处在于能在向量空间中捕获并保留原始数据的语义、关系或特征。

为何需要 Embedding?

  1. 维数灾难与稀疏性: 像“词袋模型”这类方法,每个词用一个维度表示,词典庞大时向量维度极高且极度稀疏(大部分元素为0),计算效率低,难以捕捉语义。
  2. 语义鸿沟: 离散符号本身无法直接表达“相似性”(如“猫”和“狗”都比“汽车”更接近“...

Read more

Agentic AI 如何构建更好的解决方案?


利用智能体人工智能(Agentic AI)与多大型语言模型(LLMs)创建更智能解决方案的解读报告

一、引言

在人工智能技术飞速发展的当下,大型语言模型(Large Language Models,简称LLMs )已成为推动各领域创新的关键力量。而智能体人工智能(Agentic AI)概念的出现,进一步拓展了LLMs的应用边界,为构建更智能、更具协同性的解决方案提供了新路径。本次报告聚焦于“Using Agentic AI to create smarter solutions with multiple LLMs (step - by - step process)”这一主题,通过对相...

Read more

集成学习实战-Books


集成学习基础知识

集成方法:集体智慧

关注集成学习原因

单个模型中的拟合度与复杂性

第一个集成模型

集成方法的术语和分类

基本集成方法

同质并行集成:Bagging法和随机森林

并行集成

Bagging: Boostrap结合算法

随机森林

更多同质并行集成

案例研究: 乳腺癌诊断

异构并行集成:结合强学习器

异质集成的基础估计器

通过加权结合预测

通过元学习结合预测

案例研究:情感分析

顺序集成: 自适应提升

弱学习器的顺序集成

AdaBoost: 自适应提升

AdaBoost在实践中的应用

案例研究: 手写数字分类

LogitBoost:使用逻辑损失进行提升

顺序继承...

Read more

智能体(Agents)的“智能体化”程度探究


智能体(Agents)的“智能体化”程度探究:现状、挑战与未来方向

一、幻灯片内容解析

(一)核心问题:How agentic are our agents?(我们的智能体有多“智能体化”? )

这一问题聚焦于当下智能体(agents)在自主性、功能实现等维度,与理想中具备高度智能体特质(如自主决策、长期任务执行等)的契合度探究,是理解智能体发展现状与瓶颈的关键切入点。

(二)具体要点展开

  1. Many agents are pipelines(许多智能体是管道式结构 )

◦ Low degree of autonomy(低自主性 ):这类智能体多遵循预设的、线性的流程运行,像工厂流水线...

Read more

RLVR概述


以下是 RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励强化学习)的技术概述,综合其核心机制、应用场景、争议及最新进展:


一、技术原理与核心机制

  1. 基本框架
    RLVR 是一种针对大模型推理任务的强化学习方法,其核心思想是利用可自动验证的奖励信号(如数学答案的正确性、代码的测试通过率)替代人工标注,驱动模型优化。训练过程包含:
  2. 策略模型:生成候选答案及推理过程。
  3. 奖励函数:基于验证结果(如答案匹配或测试通过)给出 0/1 奖励,并结合格式规范性(如是否包含 \boxed{})设计复合奖励。

  4. 关键算法

  5. GR...

Read more