分类目录归档:论文

From Local to Global: A GraphRAG Approach to Query-Focused Summarization-论文


该文档提出了一种名为GraphRAG的基于图的检索增强生成方法,核心是解决传统RAG在全局问题上的短板,实现对大规模文本语料的全局意义建构。

核心背景与问题

  • 传统RAG(向量RAG)擅长处理局部查询,但无法应对“数据集的主要主题是什么”这类需要全局理解的问题,这类问题本质是查询聚焦摘要(QFS)任务。
  • 现有QFS方法难以适配RAG系统的大规模文本索引需求,因此需要融合两者优势。

GraphRAG核心设计与流程

  1. 索引构建阶段
    • 文本切块:将源文档拆分为文本块,平衡提取成本与信息召回率。
    • 实体与关系提取:利用LLM提取文本块中的实体、实体关系及事实声明,并生成描述。
    • 知识图谱构建:将提取...

Read more

The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities- 论文


这篇文档是一份全面的大语言模型(LLM)微调指南,用通俗的话来说,核心就是教大家“怎么把现成的大模型(比如GPT、LLaMA)改成自己需要的样子”,从基础原理到实际操作都讲透了。

一、先搞懂核心概念:什么是LLM微调?

现成的大模型(比如GPT-3、LLaMA)已经学了海量通用知识,但面对具体场景(比如医疗问诊、金融分析)可能不够用。微调就像是“针对性补课”——用小范围的专属数据(比如医疗病历、金融报告),让大模型在不忘记原有知识的前提下,精准适配特定任务或领域,不用从零训练,省钱又高效。

二、微调的完整流程:七步走就能搞定

文档里给了一个清晰的“七阶段流程”,一步步教你做: 1. 准备...

Read more

Cognitive Architectures for Language Agents-论文


这篇论文核心是提出CoALA(语言智能体认知架构) 框架,为基于大语言模型(LLM)的语言智能体提供统一的设计与分类标准,同时结合认知科学和符号人工智能的历史经验,为通用语言智能体的发展指明方向。

研究背景与动机

  • 语言智能体是一类以LLM为核心、能与世界交互的AI系统,已在机器人控制、网页操作等领域取得实证成功,但缺乏统一框架整合现有研究,不同系统的术语、设计思路零散,难以对比和迭代。
  • 传统认知架构(如Soar)和产生式系统的理念可迁移到LLM领域:LLM本质是概率性的字符串改写系统,与产生式系统存在天然相似性,而认知架构的控制逻辑能弥补LLM在记忆管理、决策规划上的不足。

核心理论...

Read more

Universal Trading for Order Execution with Oracle Policy Distillation-论文


1. 一段话总结

本文聚焦算法交易中的订单执行这一基础问题(核心目标是完成特定工具的清算或获取订单),指出近年该领域已从基于模型的市场假设分析视角转向无模型的强化学习视角,但由于策略可利用的市场信息存在噪声且不完美,构建样本高效的强化学习方法面临挑战;为此提出一种新颖的通用交易策略优化框架,其核心是借助先知教师(拥有完美信息)的策略蒸馏方法引导通用策略学习,以逼近最优交易策略,在AAAI 2021上被接收的该方法,经大量实验验证,相比多种强基线有显著改进,且交易行为合理。


2. 思维导图(mindmap)

## 核心背景
- 问题定位:算法交易中的订单执行(清算/获取特定工具订单)
-...

Read more

TIMEMIXER: DECOMPOSABLE MULTISCALE MIXING FOR TIME SERIES FORECASTING-论文


论文《TIMEMIXER: DECOMPOSABLE MULTISCALE MIXING FOR TIME SERIES FORECASTING》总结

本文发表于ICLR 2024会议,由蚂蚁集团与清华大学团队合作完成。针对时间序列预测中复杂时序变化的挑战,提出基于多尺度混合的全新视角,设计出全MLP架构的TimeMixer模型。该模型通过Past-Decomposable-Mixing(PDM)块Future-Multipredictor-Mixing(FMM)块,分别在历史信息提取阶段对多尺度序列的季节和趋势成分进行分解混合,在未来预测阶段融合多预测器的互补能力;在18个真实世界基...

Read more

TimeXer:融合外部变量的时间序列预测新范式


TimeXer:融合外部变量的时间序列预测新范式

TimeXer 是清华大学研究团队在2024年提出的一种创新型时间序列预测模型,它专门设计用于有效融合外生变量(外部因素) 来提升对目标序列(内生变量)的预测精度。该模型基于经典的Transformer架构,通过巧妙的嵌入策略和注意力机制调整,使其能够同时捕捉时间序列的内在模式和外部因素的影响。

核心设计与原理

TimeXer 的核心创新在于其差异化的嵌入策略双注意力机制,解决了传统方法在处理外生变量时面临的挑战。

  1. 差异化的嵌入策略

    • 内生变量嵌入:采用分块(Patching)策略(将时间序列分割为不重叠的片段,每个片段视为一个 t...

Read more

Qlib-论文



一段话总结

量化投资旨在通过金融工具在连续交易期内实现收益最大化与风险最小化,受AI技术快速发展及其在量化投资中创新潜力的启发,AI驱动的量化研究与投资工作流应用日益增多,与此同时,AI技术在丰富量化投资方法论的同时,也对量化投资系统提出了基础设施需升级以适应新学习范式、需更强大性能以满足数据驱动特性、以及在金融场景中应用AI解决不同任务存在独特挑战等新要求,为应对这些挑战并桥接AI技术与量化投资,我们设计开发了Qlib,其旨在实现AI技术在量化投资中的潜力、赋能相关研究并创造价值。


思维导图

## **标题**
- Qlib: An AI-oriented Quantitative...

Read more