论文

每日更新的前沿 AI 研究论文,助您把握人工智能最新动向

Echo-4o:利用GPT-4o合成图像提升图像生成性能
Echo-4o:利用GPT-4o合成图像提升图像生成性能
Junyan Ye, Dongzhi Jiang, Zihao Wang, et al.
13 天前
Story2Board:一种无需训练的富有表现力的分镜生成方法
Story2Board:一种无需训练的富有表现力的分镜生成方法
David Dinkevich, Matan Levy, Omri Avrahami, et al.
12 天前
VisCodex:通过融合视觉与编码模型实现统一的多模态代码生成
VisCodex:通过融合视觉与编码模型实现统一的多模态代码生成
Lingjie Jiang, Shaohan Huang, Xun Wu, et al.
13 天前
AWorld:具有稳定机动性的动态多Agent系统,用于鲁棒的GAIA问题求解
AWorld:具有稳定机动性的动态多Agent系统,用于鲁棒的GAIA问题求解
Zhitian Xie, Qintong Wu, Chengyue Yu, et al.
12 天前
PRELUDE:一个旨在要求对长上下文进行全局理解与推理的基准
PRELUDE:一个旨在要求对长上下文进行全局理解与推理的基准
Mo Yu, Tsz Ting Chung, Chulun Zhou, et al.
9 天前
看、听、记、思:具备长期记忆的多模态Agent
看、听、记、思:具备长期记忆的多模态Agent
Lin Long, Yichen He, Wentao Ye, et al.
12 天前
RelayFormer:一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架
RelayFormer:一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架
Wen Huang, Jiarui Yang, Tao Dai, et al.
12 天前
扩散型LLM可通过离散扩散强制实现快于自回归的推理
扩散型LLM可通过离散扩散强制实现快于自回归的推理
Xu Wang, Chenkai Xu, Yijie Jin, et al.
12 天前
时间是一种特征:在扩散语言模型中利用时间动态特性
时间是一种特征:在扩散语言模型中利用时间动态特性
Wen Wang, Bozhen Fang, Chenchen Jing, et al.
13 天前
无需训练的文本引导多模态扩散Transformer颜色编辑
无需训练的文本引导多模态扩散Transformer颜色编辑
Zixin Yin, Xili Dai, Ling-Hao Chen, et al.
6 天前
OpenCUA:面向计算机使用智能体的开源基础
OpenCUA:面向计算机使用智能体的开源基础
Xinyuan Wang, Bowen Wang, Dunjie Lu, et al.
14 小时前
内在记忆智能体:通过结构化上下文记忆实现的异构多智能体LLM系统
内在记忆智能体:通过结构化上下文记忆实现的异构多智能体LLM系统
Sizhe Yuen, Francisco Gomez Medina, Ting Su, et al.
14 天前
基于用户画像感知的LLM-as-a-Judge的播客推荐评估
基于用户画像感知的LLM-as-a-Judge的播客推荐评估
Francesco Fabbri, Gustavo Penha, Edoardo D&#39, et al.
6 天前
Mol-R1:面向分子发现中显式长链思维推理
Mol-R1:面向分子发现中显式长链思维推理
Jiatong Li, Weida Wang, Qinggang Zhang, et al.
12 天前
ODYSSEY:面向长时程任务的开放世界四足动物探索与操作
ODYSSEY:面向长时程任务的开放世界四足动物探索与操作
Kaijun Wang, Liqin Lu, Mingyu Liu, et al.
1 天前
PyVeritas:基于LLM的转译与C语言的有界模型检测的Python验证
PyVeritas:基于LLM的转译与C语言的有界模型检测的Python验证
Pedro Orvalho, Marta Kwiatkowska
14 天前
HierSearch:一种集成本地搜索与网络搜索的分层企业深度搜索框架
HierSearch:一种集成本地搜索与网络搜索的分层企业深度搜索框架
Jiejun Tan, Zhicheng Dou, Yan Yu, et al.
13 天前
Matrix-3D:全向可探索的3D世界生成
Matrix-3D:全向可探索的3D世界生成
Zhongqi Yang, Wenhang Ge, Yuqi Li, et al.
13 天前
AdaptFlow:基于元学习的自适应工作流优化
AdaptFlow:基于元学习的自适应工作流优化
Runchuan Zhu, Bowen Jiang, Lingrui Mei, et al.
15 天前
WideSearch:面向智能体的广域信息搜索基准测试
WideSearch:面向智能体的广域信息搜索基准测试
Ryan Wong, Jiawei Wang, Junjie Zhao, et al.
14 天前
全效应:统一且空间可控制的视觉效果生成
全效应:统一且空间可控制的视觉效果生成
Fangyuan Mao, Aiming Hao, Jintao Chen, et al.
14 天前
超越十轮:基于大规模异步强化学习的长周期智能体搜索
超越十轮:基于大规模异步强化学习的长周期智能体搜索
Jiaxuan Gao, Wei Fu, Minyang Xie, et al.
13 天前
替身:一种轻量级且即插即用的视频生成身份控制方法
替身:一种轻量级且即插即用的视频生成身份控制方法
Bowen Xue, Qixin Yan, Wenjing Wang, et al.
12 天前
弱监督可操作性定位中的选择性对比学习
弱监督可操作性定位中的选择性对比学习
WonJun Moon, Hyun Seok Seong, Jae-Pil Heo
1 天前
Klear-Reasoner:通过梯度保真裁剪策略优化提升推理能力
Klear-Reasoner:通过梯度保真裁剪策略优化提升推理能力
Zhenpeng Su, Leiyu Pan, Xue Bai, et al.
14 天前
用文化知识对多语言多模态LLM进行接地
用文化知识对多语言多模态LLM进行接地
Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, et al.
8 天前
CharacterShot:可控且一致的4D角色动画
CharacterShot:可控且一致的4D角色动画
Junyao Gao, Jiaxing Li, Wenran Liu, et al.
13 天前
ReasonRank:通过强大的推理能力赋能段落排序
ReasonRank:通过强大的推理能力赋能段落排序
Wenhan Liu, Xinyu Ma, Weiwei Sun, et al.
14 天前
MultiRef:基于多个视觉参考的可控图像生成
MultiRef:基于多个视觉参考的可控图像生成
Ruoxi Chen, Dongping Chen, Siyuan Wu, et al.
6 天前
Memp:探索Agent程序记忆
Memp:探索Agent程序记忆
Runnan Fang, Yuan Liang, Xiaobin Wang, et al.
15 天前