分类目录归档:自研课程

向量数据库概述-视频文字


向量数据库概述

向量数据库是一种专门用于存储、管理和高效检索高维向量数据的数据库系统。与传统数据库基于精确匹配的查询不同,向量数据库通过计算向量之间的相似性(如余弦相似度、欧氏距离等)实现近似搜索,尤其擅长处理图像、文本、音频等非结构化数据转化而来的高维向量。其核心价值在于解决人工智能和大数据场景下海量高维数据的实时检索需求,广泛应用于推荐系统、图像搜索、自然语言处理等领域。


核心原理

1. 向量空间模型

向量数据库基于向量空间模型(VSM),将数据映射为高维空间中的点。例如,文本可通过词嵌入(如Word2Vec、BERT)转化为向量,图像通过CNN提取特征向量。相似性通过向量间的距离...

Read more

向量数据库核心技术解析-视频文字


向量数据库核心技术解析

向量数据库作为处理高维非结构化数据的核心工具,其技术体系融合了信息检索、机器学习与分布式系统等多个领域的成果。本文将从索引技术、相似性度量、存储优化、查询处理、分布式架构及嵌入模型六大核心技术展开分析,并结合实际应用场景探讨其技术演进方向。


一、高效索引技术

索引技术是向量数据库实现快速检索的核心。传统数据库的B树、倒排索引等结构难以应对高维数据的“维度灾难”,因此向量数据库采用以下三类索引优化策略:

  1. 层次化图结构索引(HNSW)
    基于小世界网络理论构建多层图结构,通过贪心算法在层级间快速导航,实现高维向量的近似最近邻搜索(ANN)。HNSW在保证90...

Read more

FinSearch概述-视频文字


FinSearch 概述、原理与架构解析

一、概述

FinSearch 是面向金融投研场景的专业化智能搜索系统,旨在通过结合大模型能力与垂直领域数据处理技术,提升金融信息检索与分析效率。其核心目标是为投资者、分析师等提供快速、精准的多模态金融数据(如研报、公告、会议纪要)搜索与推理服务,并支持复杂的投研决策分析。典型应用包括关联标的挖掘、企业基本面分析、市场趋势预测等。

以熵简科技的 AlphaEngine 为例,该系统基于开源大模型 DeepSeek-R1 构建,结合高质量的投研数据与思维链(CoT)轨迹蒸馏,形成了具备深度推理能力的金融大模型 FinGPT Deep,实现了从自然语言...

Read more

Data Mesh 核心概念、架构与概述


Data Mesh 核心概念、架构与概述

1. 核心概念
Data Mesh 是一种去中心化的数据架构范式,由 Zhamak Dehghani 提出,旨在解决传统集中式数据架构(如数据仓库、数据湖)在规模化、敏捷性和协作性上的瓶颈。其核心原则包括:

  • 领域自治(Domain Ownership)
    数据由业务领域团队直接负责,每个领域团队拥有自己的数据产品(Data Product),确保数据贴近业务需求,减少跨团队依赖。

  • 数据即产品(Data as a Product)
    数据被视为独立的产品,需满足可发现、可理解、可信、可交互等标准,例如提供元数据、SLA(服务等级协议)和...

Read more

数据标签体系:核心概念、架构、应用场景与最佳实践-视频文字


数据标签体系:核心概念、架构、应用场景与最佳实践

一、核心概念

  1. 数据标签(Data Tag)
  2. 数据标签是对数据实体(如用户、商品、事件等)的属性、特征或分类的抽象描述,例如“高价值用户”“热销商品”“风险交易”等。
  3. 标签可以是静态(如性别、地域)或动态(如近30天活跃度)。

  4. 标签体系(Tagging System)

  5. 标签体系是一套结构化、层次化的标签集合,通过逻辑关系(如父子、并列、依赖)组织,确保标签的可复用性和可扩展性。
  6. 例如,电商场景的标签体系可能包含“用户画像”“商品分类”“行为分析”等大类。

  7. 标签分类与层级

  8. 基础标签:直接来源于原始数据(如...

Read more

数据中台概述-视频文字


数据中台(Data Middle Platform)是近年来企业数字化转型中的热门概念,其核心目标是打破数据孤岛、实现数据资产化,并通过统一的数据服务能力赋能业务快速创新。以下是关于数据中台的详细解析:


1. 数据中台的定义

数据中台是企业级的数据能力共享平台,通过整合多源异构数据(业务系统、IoT设备、日志等),构建统一的数据资产体系,并以API、可视化工具等方式为前端业务(如营销、风控、运营)提供灵活、高效的数据服务。

类比:类似于“数据厨房”,将原始数据(食材)加工成标准化、可复用的数据产品(半成品菜),供业务端快速调用,避免重复“切菜炒菜”。


2. 数据中台 vs 传统数据平...

Read more

数据工程概述-视频文字


数据工程架构概述

数据工程架构是支撑现代数据驱动应用的核心框架,旨在高效、可靠地管理数据的全生命周期(采集、存储、处理、分析和服务)。它为企业提供从原始数据到业务价值的转化能力,是数据科学、机器学习、商业智能(BI)等上层应用的基础。


1. 核心目标

  • 数据可用性:确保数据可被正确、及时地访问。
  • 可扩展性:支持海量数据的增长(如PB级数据)。
  • 可靠性:保障数据一致性、容错性和灾备能力。
  • 高效性:优化存储与计算的成本及性能。
  • 安全性:通过权限控制、加密等手段保护数据隐私。

2. 典型分层架构

数据工程架构通常分为以下层次:

(1)数据采集层(Ingestion)
  • 功能:从异构数据源...

Read more

AI数据分析-视频文字


AI数据分析:驱动智能时代的决策革命

引言:数据洪流中的智能进化

步入21世纪,数据已然成为与石油相媲美的战略资源。国际数据公司(IDC)预测,到2025年,全球数据总量将激增至175 ZB(1 ZB = 1万亿GB)。然而,令人惊讶的是,其中被有效分析的数据竟不足2%。传统的数据分析方法,由于效率低下,且高度依赖人工经验,在面对海量、复杂且异构的数据时,愈发显得力不从心。

AI数据分析(AI-Driven Data Analytics)适时登场,借助机器学习、深度学习等前沿技术,为数据赋予了“自我学习”的能力,能够从过往的历史规律中精准洞察未来趋势。以Netflix为例,它运用AI深入...

Read more

TimeGPT原理架构概述-视频文字-


TimeGPT原理架构概述 TimeGPT是由Nixtla开发的一种基于Transformer的生成式预训练模型,专门用于时间序列预测任务。其核心架构和原理如下: 1. 架构设计 TimeGPT的架构基于多层编码器-解码器结构,每一层都包含残差连接和层归一化。这种设计借鉴了“Attention is all you need”中提出的自注意力机制,能够有效捕捉时间序列数据中的复杂模式和长期依赖关系。 编码器-解码器结构:编码器负责将输入的时间序列数据编码为特征表示,而解码器则基于这些特征生成预测结果。 残差连接与层归一化:这些技术有助于缓解深度网络中的梯度消失问题,提升模型的训练效率和稳...

Read more

特征平台概述-视频文字


特征平台:数据智能时代的核心引擎

在大数据与人工智能深度融合的今天,特征平台已成为企业智能化转型的核心基础设施。作为连接原始数据与机器学习模型的桥梁,特征平台通过系统化的特征管理机制,实现了数据价值的深度挖掘与高效转化。

一、特征平台技术原理

特征平台基于特征全生命周期管理理念构建,包含特征注册、版本控制、元数据管理等核心模块。离线计算层依托Hadoop/Spark生态,通过批处理方式完成TB级特征加工,在线计算层则采用Flink/Kafka技术栈实现毫秒级实时特征计算。统一的特征元数据中心维护着特征血缘关系,确保特征可追溯、可复用。

分层架构设计是特征平台的技术精髓,自下而上包含数据源...

Read more