分类目录归档:自研课程

Airflow-Provider-自研课程-0101004


在Apache Airflow中,Provider是用于扩展Airflow功能的插件包。它们包含与特定服务或系统交互所需的操作符(Operators)、钩子(Hooks)、传感器(Sensors)等组件。通过安装和使用这些Provider包,您可以方便地在工作流中集成各种外部服务,如数据库、云平台、消息队列等。

例如,如果您需要在Airflow中连接并操作MySQL数据库,您可以安装与MySQL相关的Provider包。该包提供了连接MySQL所需的钩子和操作符,使您能够在工作流中执行数据库操作。

需要注意的是,不同的数据库或服务需要安装对应的Provider包,以确保Airflow...

Read more

查看 Airflow 中 DAG 运行的详细日志-自研课程-0101002


要查看 Apache Airflow 中 DAG 运行的详细日志,您可以通过以下几种方式进行:

  1. 通过 Airflow Web 界面查看任务日志:

  2. 打开 Airflow Web 界面(默认地址为 http://localhost:8080)。

  3. 在“DAGs”视图中,找到并点击您感兴趣的 DAG。
  4. 在 DAG 的“树状图”或“图形”视图中,点击特定任务实例。
  5. 在弹出的窗口中,切换到“日志”标签页,即可查看该任务的详细运行日志。

  6. 直接访问日志文件:

Airflow 将任务日志保存在本地文件系统中,默认路径为 AIRFLOW_HOME/logs。您可以直接访问这些日...

Read more

Airflow 中编写第一个 DAG-自研课程-0101001


要在 Apache Airflow 中编写第一个 DAG(有向无环图),您可以按照以下步骤进行:

  1. 创建 DAG 文件:在 Airflow 的 dags 目录下创建一个 Python 文件,例如 hello_world_dag.py。如果 dags 目录尚不存在,请先创建该目录。

  2. 导入必要的模块:在 DAG 文件中,导入 DAG 类和所需的操作符(Operator),例如 PythonOperatorBashOperator,以及日期时间模块。

python from airflow import DAG from airflow.operators.p...

Read more

玻尔兹曼机概述


探秘玻尔兹曼机:解锁人工智能的“能量密码”

从统计物理到 AI:玻尔兹曼机的诞生

在科学的广袤版图中,不同学科之间常常存在着奇妙的联系,就像隐藏在宇宙深处的暗线,将看似分离的知识领域悄然连接。统计物理学与人工智能领域的交融,便是这样一段引人入胜的故事,而玻尔兹曼机,正是这段故事中一颗璀璨的明珠。

统计物理学,作为物理学的一个重要分支,主要研究大量微观粒子组成的宏观系统的性质和行为。在这个领域中,玻尔兹曼分布占据着举足轻重的地位。它描述了处于热平衡状态下,粒子在不同能量状态下的概率分布情况,其核心思想在于,系统更倾向于处于能量较低的状态,且温度对粒子的分布有着关键影响。简单来说,就如同在一...

Read more

机器学习超参数:从理论到实践的核心探索



机器学习超参数:从理论到实践的核心探索

一、引言

在构建机器学习模型的过程中,数据、算法与超参数如同“铁三角”,共同决定了模型的最终性能。其中,超参数调优往往是最容易被低估却至关重要的环节。一个优秀的模型架构可能因不当的超参数选择而表现平庸,而简单的算法搭配精细调参却可能实现惊人效果。本文将从基础概念切入,系统解析超参数的优化方法论、实用技巧及前沿趋势,为从业者提供一份兼顾理论与实践的调参指南。


二、超参数基础概念

1. 定义与作用

超参数(Hyperparameters)是模型训练前预设的配置参数,与模型通过数据自动学习的参数(如线性回归的权重)有本质区别。例如,在训练神经网络时,...

Read more

Cot概述


CoT:开启人工智能推理新时代

从 “黑箱” 到透明:CoT 是什么

在人工智能飞速发展的当下,大语言模型(LLM)已成为自然语言处理领域的核心力量。它们能够生成流畅的文本、回答复杂的问题,甚至进行创造性写作,展现出令人惊叹的语言能力。然而,传统大语言模型在处理问题时,就像一个神秘的 “黑箱”。以 GPT-3 为例,当你向它提出一个问题,它会迅速给出答案,但却无法清晰展示得出这个答案的具体思考过程。这种缺乏透明度的决策机制,使得用户难以理解答案的来源和可靠性,也限制了模型在一些对推理过程要求严格的领域中的应用。

直到 2022 年,谷歌研究人员在《Chain-of-Thought Pro...

Read more

Cot思维链:人工智能推理能力的革命性突破


Cot思维链:人工智能推理能力的革命性突破

近年来,随着大语言模型(LLM)的快速发展,人工智能在文本生成、问答系统等任务中展现出惊人的能力。然而,模型如何得出答案的"黑箱"特性始终是制约其可信度的关键瓶颈。2022年,Google研究人员在《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》论文中提出的思维链(Chain-of-Thought, CoT)技术,通过让AI展示完整的推理步骤,不仅显著提升了复杂问题的解决能力,更打开了理解机器认知过程的窗口。这项技术正在重塑人机协作的范式,成为AI可解...

Read more

多智能体框架-视频文字


多智能体框架(Multi-Agent Framework)是支持多个智能体(Agent)协同工作、交互和决策的系统架构,广泛应用于分布式人工智能、机器人协作、自动驾驶、游戏AI、供应链优化等领域。以下是多智能体框架的核心概念、关键组成和典型应用方向:


1. 多智能体框架的核心概念

  • 智能体(Agent):具有自主决策能力的实体,能感知环境、处理信息并采取行动。
  • 协作与竞争:智能体之间可能合作完成共同目标,也可能因资源竞争而产生博弈。
  • 去中心化:无需全局控制中心,智能体通过本地规则或通信实现系统级目标。
  • 环境动态性:智能体需适应环境变化(如其他智能体的行为、外部事件等)。

2. 多智...

Read more

向量数据库概述-视频文字


向量数据库概述

向量数据库是一种专门用于存储、管理和高效检索高维向量数据的数据库系统。与传统数据库基于精确匹配的查询不同,向量数据库通过计算向量之间的相似性(如余弦相似度、欧氏距离等)实现近似搜索,尤其擅长处理图像、文本、音频等非结构化数据转化而来的高维向量。其核心价值在于解决人工智能和大数据场景下海量高维数据的实时检索需求,广泛应用于推荐系统、图像搜索、自然语言处理等领域。


核心原理

1. 向量空间模型

向量数据库基于向量空间模型(VSM),将数据映射为高维空间中的点。例如,文本可通过词嵌入(如Word2Vec、BERT)转化为向量,图像通过CNN提取特征向量。相似性通过向量间的距离...

Read more