分类目录归档:论文

Predicting Stock Movement with BERTweet and Transformers-论文


利用BERTweet和Transformer预测股票走势的研究,主要内容包括:

  1. 研究背景:深度学习和计算智能在金融领域的应用很热门,但金融数据的高波动性和非平稳性给机器学习模型带来挑战。已有研究结合社交媒体数据和历史价格数据提升模型表现,本文在此基础上,用BERTweet和Transformer架构进行股票走势预测。
  2. 相关工作:介绍了预测股票价格走势的相关研究,如Nguyen等人用主题情感模型,Selvin等人应用多种网络架构,还有学者通过添加词嵌入、辅助目标等方式提升模型性能。同时提到Transformer和BERTweet在其他领域表现出色,但未应用于Stocknet数据集。
  3. 问题...

Read more

DataLab-统一商业智能(BI)工作流程


“DataLab: A Unified Platform for LLM-Powered Business Intelligence”提出了DataLab平台,将基于大语言模型(LLM)的智能体框架与计算笔记本界面相结合,以统一商业智能(BI)工作流程,提升BI任务处理的效率和效果。 1. 背景与挑战:传统BI工作流程繁琐,基于LLM的智能体虽有帮助,但现有方法多聚焦单个任务,存在缺乏领域知识融合、任务间信息共享不足和LLM上下文管理需求未满足等问题。 2. DataLab平台概述:由LLM - 基于代理框架和计算笔记本界面组成。前者针对不同BI任务设计多个代理,通过代理协作完成任务;后...

Read more

DataLab: A Unified Platform for LLM-Powered Business Intelligence-论文


“DataLab: A Unified Platform for LLM-Powered Business Intelligence”提出了DataLab平台,将基于大语言模型(LLM)的智能体框架与计算笔记本界面相结合,以统一商业智能(BI)工作流程,提升BI任务处理的效率和效果。 1. 背景与挑战:传统BI工作流程繁琐,基于LLM的智能体虽有帮助,但现有方法多聚焦单个任务,存在缺乏领域知识融合、任务间信息共享不足和LLM上下文管理需求未满足等问题。 2. DataLab平台概述:由LLM - 基于代理框架和计算笔记本界面组成。前者针对不同BI任务设计多个代理,通过代理协作完成任务;后...

Read more

NEXUS: A LIGHTWEIGHT AND SCALABLE MULTI-AGENT FRAMEWORK FOR COMPLEX TASKS AUTOMATION-论文


这篇论文《NEXUS: A LIGHTWEIGHT AND SCALABLE MULTI-AGENT FRAMEWORK FOR COMPLEX TASKS AUTOMATION》由Humza Sami等人撰写。论文提出了Nexus,一种轻量级且可扩展的多智能体框架,旨在简化基于大语言模型(LLM)的多智能体系统(MAS)的构建与管理,通过实验验证了其在多个领域的卓越性能,为解决复杂实际问题提供了有效途径。

  1. 背景与相关工作:多智能体系统(MAS)自20世纪80年代出现,从基于启发式的传统方法逐渐发展到结合大语言模型(LLM)的新阶段。LLM的融入使MAS具备更复杂的推理、自然语言通信和...

Read more

An Agent Framework for Real-Time Financial Information Searching with Large Language Models-论文


金融信息检索的研究,提出了FinSearch这一新型基于代理的搜索框架,旨在解决金融决策中信息检索与分析的难题,通过实验验证了其性能优势。

  1. 研究背景与目的:金融决策需要处理大量实时信息并理解其复杂时间关系。传统搜索引擎和大语言模型(LLMs)在金融信息检索方面各有局限,现有结合两者的尝试也存在不足。研究旨在提出FinSearch框架,解决这些问题。
  2. FinSearch框架设计:由搜索预规划器、带动态查询重写器的搜索执行器、时间加权机制和响应生成器组成。搜索预规划器分解复杂查询,构建搜索图;搜索执行器根据中间结果优化查询;时间加权机制按时间相关性给信息加权;响应生成器整合信息生成报告。
  3. ...

Read more

TimeGPT-1-论文


TimeGPT-1-论文

TimeGPT-1是首个用于时间序列的预训练基础模型,以下是关于它的详细介绍:

核心特点

  • 多领域泛化能力:训练数据涵盖金融、医疗、气象、零售等多个领域,能适应复杂多样的数据集,可对不同领域的时间序列数据进行准确预测与分析。
  • 高效性与易用性:通过零样本推理,无需针对新数据集进行额外训练,大幅减少传统模型在训练和优化流程上的计算成本和时间,降低了使用门槛,提高了时间序列分析的效率。
  • 简单且高效的架构:采用基于transformer的自注意力机制和残差连接,能捕捉长序列复杂依赖关系,精准捕捉时间序列数据中的长期依赖关系与复杂模式,优化预测性能。

技术创新

  • 输入层...

Read more

Attention Is All You Need-论文-V2


Attention Is All You Need-论文

《Attention Is All You Need》是自然语言处理领域的经典论文,具有里程碑意义。以下是对它的详细介绍:

核心贡献

  • 提出Transformer模型:论文首次提出了Transformer模型架构,摒弃了传统用于处理序列数据的循环神经网络(RNN)和卷积神经网络(CNN),完全基于自注意力机制构建,为自然语言处理及其他相关领域带来了重大变革。
  • 引入自注意力和多头注意力机制
    • 自注意力机制:能让模型在处理序列数据时,同时计算输入序列中所有位置之间的关系权重,进而加权得到每个位置的特征表示,可捕捉序列内的长距离依赖关系...

Read more

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning-论文


这篇论文是DeepSeek-AI关于大语言模型推理能力提升的研究成果,主要介绍了DeepSeek-R1-Zero和DeepSeek-R1模型,通过强化学习提升模型推理能力,并探索了模型蒸馏,为该领域研究提供了重要参考 。

  1. 研究背景:大语言模型(LLMs)发展迅速,后训练成为提升模型性能的重要环节。OpenAI的o1系列模型通过增加思维链推理长度提高了推理能力,但有效测试时缩放仍是研究难题。此前方法未达到o1系列模型的推理性能,该研究旨在用纯强化学习(RL)提升语言模型推理能力。
  2. 研究方法
    • DeepSeek-R1-Zero:直接对基础模型应用RL,不依赖监督微调(SFT)。采用分组相对策...

Read more

Reasoning Language Models: A Blueprint-论文


这篇论文是来自ETH Zurich等机构的研究人员撰写的 “Reasoning Language Models: A Blueprint”,核心是提出一个用于构建、分析和实验推理语言模型(RLMs)的综合蓝图,旨在降低RLMs设计和实验的门槛,推动该领域的发展。

  1. RLMs的发展与挑战:RLMs结合了大语言模型(LLMs)和先进推理机制,在多领域有变革性突破,但存在成本高、专利性质以及架构复杂等问题,导致获取和扩展困难。其技术基础不透明,组件间的协同机制也尚未明确。
  2. RLMs的本质:由LLMs、强化学习(RL)和高性能计算(HPC)共同发展而来,具备系统2思维能力。与标准LLMs的插值能...

Read more

DeepSeek-V3 Technical Report-论文


这篇论文是关于DeepSeek-V3的技术报告,介绍了该混合专家(MoE)语言模型在架构、训练、评估等方面的创新与优化,展示其超越开源模型、接近闭源模型的性能优势及高效低成本的训练特点。

  1. 模型概述:DeepSeek-V3是671B参数的MoE语言模型,每个token激活37B参数。采用MLA和DeepSeekMoE架构,创新提出无辅助损失的负载均衡策略和多token预测训练目标,在14.8万亿高质量token上预训练,经监督微调(SFT)和强化学习(RL)后,性能优异且训练成本低,模型检查点开源。
  2. 模型架构:基于Transformer框架,采用MLA和DeepSeekMoE。MLA通过...

Read more