Papers with Code-专注于机器学习领域的资源平台,提供最新的研究论文、代码实现和性能基准


“https://paperswithcode.com/”是一个网站,其使命是创建一个免费且开放的资源,包含机器学习的论文、代码、数据集、方法和评估表等内容。

该网站的特点和包含的信息如下: - 提供了大量的机器学习相关资源,涵盖多个领域,如机器学习、计算机科学、物理学、数学、天文学、统计学等,有众多的论文与代码、基准、任务、数据集等。 - 展示了一些热门的论文,如 tensorflow、transformers、pytorch 等相关的研究。 - 最新的趋势研究包括 DeMo:Decoupled Momentum Optimization、Scaling Transformers for Low-Bitrate High-Quality Speech Coding 等,涉及到图像生成、语音编码、语音分离、视频生成等不同领域的研究。

网站的具体内容如: - DeMo:Decoupled Momentum Optimization,用于训练大型神经网络时在加速器之间共享梯度。 - Scaling Transformers for Low-Bitrate High-Quality Speech Coding:使用神经音频编解码器模型对语音进行标记是生成或理解语音的现代 AI 管道的重要部分。 - MossFormer:采用联合局部和全局自注意力架构,有效解决双路径架构中跨块的间接元素交互问题。 - Open-Sora Plan:开源的大型视频生成模型项目。 - Visual Autoregressive Modeling:将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”的新生成范例。 - Auto-RAG:自主检索增强生成,通过模型在生成过程中不断查询检索器来提高检索知识的相关性,从而提高检索增强生成的性能。 - Multimodal Whole Slide Foundation Model for Pathology:通过自监督学习将组织病理学感兴趣区域编码为通用且可转移的特征表示,推动了计算病理学领域的发展。 - ShowUI:一种用于 GUI 视觉代理的视觉语言动作模型,具有 UI 引导的视觉标记选择、交错的视觉语言动作流和小规模高质量的 GUI 指令遵循数据集等创新特点。 - Mooncake:一种以 KVCache 为中心的分解架构,用于 LLM 服务,在某些模拟场景中可实现吞吐量的大幅增加。 - TextSSR:基于扩散的数据合成方法,用于场景文本识别,实验表明在添加的 TextSSR-F 数据上训练的模型比在 400 万现有合成数据上训练的模型具有更好的准确性。

任何人都可以加入该社区并做出贡献,所有内容在 CC-BY-SA(与维基百科相同)许可下公开授权,大家可以通过“编辑”按钮提交新的代码实现、添加评估表或任务等。为确保数据质量,所有编辑都会在 slack 的#recentchanges 频道上进行监控。该网站的核心团队位于 meta ai 研究,这是一个社区项目,不会与任何 meta 平台产品共享数据。

您提供的链接是指向 "Papers with Code" 网站,这是一个专注于机器学习领域的资源平台,提供最新的研究论文、代码实现和性能基准。以下是一些该网站上的亮点内容:

  1. SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory
  2. 该研究提出了一种新的方法,用于零样本视觉跟踪,通过运动感知记忆改进了Segment Anything Model 2 (SAM 2) 在视觉对象跟踪任务中的表现,尤其是在处理快速移动或自遮挡对象的场景中。
  3. 该方法在GOT-10k数据集上的视觉对象跟踪任务中排名第一。

  4. garak: A Framework for Security Probing Large Language Models

  5. 随着大型语言模型(LLMs)被部署到成千上万的应用中,对模型如何响应对抗性攻击的可扩展评估需求迅速增长。
  6. 该框架旨在评估这些模型的安全性。

  7. When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training

  8. 为了解决BFloat16在长上下文训练中引起的数值问题,开发了AnchorAttention,这是一种即插即用的注意力方法,可以改善长上下文能力并加快训练速度。

  9. JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation

  10. 该研究介绍了一种用于肖像和动物图像动画化的方法,通过基于扩散的音频驱动的面部动态和头部运动生成技术,将动态面部表情从静态3D面部表示中分离出来。

  11. The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

  12. 该研究探讨了Claude 3.5 Computer Use模型,这是第一个提供公共测试版图形用户界面(GUI)代理的前沿AI模型。

  13. In-Context LoRA for Diffusion Transformers

  14. 该框架在任务特定的调整数据方面,但在架构和流程上保持任务不可知,为社区提供了一个强大的工具,并为进一步研究产品级任务不可知生成系统提供了宝贵的见解。

  15. REDUCIO! Generating 1024×1024 Video within 16 Seconds using Extremely Compressed Motion Latents

  16. 商业视频生成模型展示了真实、高保真的结果,但仍然限制在有限的访问权限内。

  17. Qwen2.5-Coder Technical Report

  18. 该技术报告介绍了Qwen2.5-Coder系列,这是其前身CodeQwen1.5的显著升级。

  19. TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation

  20. 该研究关注直接将一种语言的语音翻译成另一种语言的语音,即端到端的语音到语音翻译。

  21. D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement

    • 当在Objects365上预训练时,D-FINE-L / X分别达到了57.1% / 59.3%的AP,超过了所有现有的实时检测器。

Papers with Code 是一个宝贵的资源,它不仅提供了最新的研究成果,还提供了相应的代码实现,使得研究人员和开发者能够快速地将理论应用到实践中。如果您对特定的研究领域或技术有更具体的问题,或者需要进一步的帮助,请随时告诉我。

Papers with Code 是一个平台,将最新的人工智能研究论文与相关代码实现结合,方便研究人员和开发者获取最新的技术和实践。平台不仅提供论文,还跟踪算法在各类任务和数据集上的表现,使得用户可以轻松比较不同方法的效果。