HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

RLinf-Co：基于强化学习的模拟-现实协同训练用于视觉-语言-动作模型

RLinf-Co：基于强化学习的模拟-现实协同训练用于视觉-语言-动作模型

监督式微调

Liangzhi Shi, Shuaihang Chen, Feng Gao, et al.

ABot-M0：基于动作流形学习的机器人操作视觉-语言-动作基础模型

ABot-M0：基于动作流形学习的机器人操作视觉-语言-动作基础模型

Yandan Yang, Shuang Zeng, Tong Lin, et al.

强化学习如何提升视觉推理能力？一种“怪物合成式”的分析

强化学习如何提升视觉推理能力？一种“怪物合成式”的分析

监督式微调

Xirui Li, Ming Li, Tianyi Zhou

MedXIAOHE：构建医学领域MLLMs的完整方案

MedXIAOHE：构建医学领域MLLMs的完整方案

Baorong Shi, Bo Cui, Boyuan Jiang, et al.

无需缩放的缩放：面向细粒度多模态感知的区域到图像知识蒸馏

无需缩放的缩放：面向细粒度多模态感知的区域到图像知识蒸馏

Lai Wei, Liangbo He, Jun Lan, et al.

少即是足：在LLM的特征空间中合成多样化数据

少即是足：在LLM的特征空间中合成多样化数据

监督式微调

Zhongzhi Li, Xuansheng Wu, Yijiang Li, et al.

GigaBrain-0.5M*：一种基于世界模型强化学习的VLA

GigaBrain-0.5M*：一种基于世界模型强化学习的VLA

统一多模态

GigaBrain Team, Boyuan Wang, Chaojun Ni, et al.

MOSS-Audio-Tokenizer：面向未来音频基础模型的音频分词器扩展

MOSS-Audio-Tokenizer：面向未来音频基础模型的音频分词器扩展

音频和语音处理

Yitian Gong, Kuangwei Chen, Zhaoye Fei, et al.

超越教师的学习：基于奖励外推的广义在线策略蒸馏

超越教师的学习：基于奖励外推的广义在线策略蒸馏

Wenkai Yang, Weijie Liu, Ruobing Xie, et al.

DeepGen 1.0：一种轻量级统一多模态模型，用于推进图像生成与编辑

DeepGen 1.0：一种轻量级统一多模态模型，用于推进图像生成与编辑

Dianyi Wang, Ruihang Li, Feng Han, et al.

Composition-RL：为大语言模型强化学习构建可验证的提示词组合

Composition-RL：为大语言模型强化学习构建可验证的提示词组合

Xin Xu, Clive Bai, Kai Yang, et al.

Moltbook背后的魔鬼：在自我演化的AI社会中，Anthropic安全始终在消逝

Moltbook背后的魔鬼：在自我演化的AI社会中，Anthropic安全始终在消逝

Chenxu Wang, Chaozhuo Li, Songyang Liu, et al.

迈向自主数学研究

迈向自主数学研究

Tony Feng, Trieu H. Trinh, Garrett Bingham, et al.

何时记忆，何时停止：面向长上下文推理的门控循环记忆

何时记忆，何时停止：面向长上下文推理的门控循环记忆

Leheng Sheng, Yongtao Zhang, Wenchang Ma, et al.

ASA：面向工具调用领域适应的激活控制

ASA：面向工具调用领域适应的激活控制

Youjin Wang, Run Zhou, Rong Fu, et al.

PhyCritic：面向物理AI的多模态批评者模型

PhyCritic：面向物理AI的多模态批评者模型

Tianyi Xiong, Shihao Wang, Guilin Liu, et al.

GENIUS：生成式流体智能评估套件

GENIUS：生成式流体智能评估套件

统一多模态

Ruichuan An, Sihan Yang, Ziyu Guo, et al.

步骤 3.5 快闪：以 11B 激活参数开启前沿级智能

步骤 3.5 快闪：以 11B 激活参数开启前沿级智能

Ailin Huang, Ang Li, Aobo Kong, et al.

世界-VLA-环：视频世界模型与VLA策略的闭环学习

世界-VLA-环：视频世界模型与VLA策略的闭环学习

Xiaokang Liu, Zechen Bai, Hai Ci, et al.

迈向自主数学研究

迈向自主数学研究

检索增强生成

Tony Feng, Trieu H. Trinh, Garrett Bingham, et al.

Agent世界模型：用于智能体强化学习的无限合成环境

Agent世界模型：用于智能体强化学习的无限合成环境

Zhaoyang Wang, Canwen Xu, Boyi Liu, et al.

P1-VL：连接视觉感知与物理奥赛中的科学推理

P1-VL：连接视觉感知与物理奥赛中的科学推理

多模态表征

Yun Luo, Futing Wang, Qianjia Cheng, et al.

思维链：基于自适应认知模式的推理

思维链：基于自适应认知模式的推理

Tianyi Jiang, Arctanx An, Hengyi Feng, et al.

UI-Venus-1.5 技术报告

UI-Venus-1.5 技术报告

Veuns-Team, Changlong Gao, Zhangxuan Gu, et al.

Code2World：一种通过可渲染代码生成的GUI世界模型

Code2World：一种通过可渲染代码生成的GUI世界模型

Yuhao Zheng, Li'an Zhong, Yi Wang, et al.

OPUS：面向大语言模型预训练中每轮迭代的高效且原则性数据选择

OPUS：面向大语言模型预训练中每轮迭代的高效且原则性数据选择

Shaobo Wang, Xuan Ouyang, Tianyi Xu, et al.

BagelVLA：通过交错视觉-语言-动作生成提升长时程操作能力

BagelVLA：通过交错视觉-语言-动作生成提升长时程操作能力

统一多模态

Yucheng Hu, Jianke Zhang, Yuanfei Luo, et al.

THINGS-data，一个用于研究人类大脑与行为中物体表征的多模态大规模数据集

THINGS-data，一个用于研究人类大脑与行为中物体表征的多模态大规模数据集

多模态表征

Martin N Hebart Oliver Contier, Lina Teichmann, Adam H Rockter, et al.

使用IsoDDE进行新型生物分子相互作用的精准预测

使用IsoDDE进行新型生物分子相互作用的精准预测

Isomorphic Labs Team

SkillRL：通过递归技能增强的强化学习进化Agent

SkillRL：通过递归技能增强的强化学习进化Agent

Peng Xia, Jianwen Chen, Hanyang Wang, et al.

LLaDA2.1：通过Token编辑加速文本扩散

LLaDA2.1：通过Token编辑加速文本扩散

Tiwei Bie, Maosong Cao, Xiang Cao, et al.

通过建模基于流的GRPO中的步骤级与长期采样效应缓解稀疏奖励问题

通过建模基于流的GRPO中的步骤级与长期采样效应缓解稀疏奖励问题

Yunze Tong, Mushui Liu, Canyu Zhao, et al.

RLinf-Co：基于强化学习的模拟-现实协同训练用于视觉-语言-动作模型

RLinf-Co：基于强化学习的模拟-现实协同训练用于视觉-语言-动作模型

监督式微调

Liangzhi Shi, Shuaihang Chen, Feng Gao, et al.

ABot-M0：基于动作流形学习的机器人操作视觉-语言-动作基础模型

ABot-M0：基于动作流形学习的机器人操作视觉-语言-动作基础模型

Yandan Yang, Shuang Zeng, Tong Lin, et al.

强化学习如何提升视觉推理能力？一种“怪物合成式”的分析

强化学习如何提升视觉推理能力？一种“怪物合成式”的分析

监督式微调

Xirui Li, Ming Li, Tianyi Zhou

MedXIAOHE：构建医学领域MLLMs的完整方案

MedXIAOHE：构建医学领域MLLMs的完整方案

Baorong Shi, Bo Cui, Boyuan Jiang, et al.

无需缩放的缩放：面向细粒度多模态感知的区域到图像知识蒸馏

无需缩放的缩放：面向细粒度多模态感知的区域到图像知识蒸馏

Lai Wei, Liangbo He, Jun Lan, et al.

少即是足：在LLM的特征空间中合成多样化数据

少即是足：在LLM的特征空间中合成多样化数据

监督式微调

Zhongzhi Li, Xuansheng Wu, Yijiang Li, et al.

GigaBrain-0.5M*：一种基于世界模型强化学习的VLA

GigaBrain-0.5M*：一种基于世界模型强化学习的VLA

统一多模态

GigaBrain Team, Boyuan Wang, Chaojun Ni, et al.

MOSS-Audio-Tokenizer：面向未来音频基础模型的音频分词器扩展

MOSS-Audio-Tokenizer：面向未来音频基础模型的音频分词器扩展

音频和语音处理

Yitian Gong, Kuangwei Chen, Zhaoye Fei, et al.

超越教师的学习：基于奖励外推的广义在线策略蒸馏

超越教师的学习：基于奖励外推的广义在线策略蒸馏

Wenkai Yang, Weijie Liu, Ruobing Xie, et al.

DeepGen 1.0：一种轻量级统一多模态模型，用于推进图像生成与编辑

DeepGen 1.0：一种轻量级统一多模态模型，用于推进图像生成与编辑

Dianyi Wang, Ruihang Li, Feng Han, et al.

Composition-RL：为大语言模型强化学习构建可验证的提示词组合

Composition-RL：为大语言模型强化学习构建可验证的提示词组合

Xin Xu, Clive Bai, Kai Yang, et al.

Moltbook背后的魔鬼：在自我演化的AI社会中，Anthropic安全始终在消逝

Moltbook背后的魔鬼：在自我演化的AI社会中，Anthropic安全始终在消逝

Chenxu Wang, Chaozhuo Li, Songyang Liu, et al.

迈向自主数学研究

迈向自主数学研究

Tony Feng, Trieu H. Trinh, Garrett Bingham, et al.

何时记忆，何时停止：面向长上下文推理的门控循环记忆

何时记忆，何时停止：面向长上下文推理的门控循环记忆

Leheng Sheng, Yongtao Zhang, Wenchang Ma, et al.

ASA：面向工具调用领域适应的激活控制

ASA：面向工具调用领域适应的激活控制

Youjin Wang, Run Zhou, Rong Fu, et al.

PhyCritic：面向物理AI的多模态批评者模型

PhyCritic：面向物理AI的多模态批评者模型

Tianyi Xiong, Shihao Wang, Guilin Liu, et al.

GENIUS：生成式流体智能评估套件

GENIUS：生成式流体智能评估套件

统一多模态

Ruichuan An, Sihan Yang, Ziyu Guo, et al.

步骤 3.5 快闪：以 11B 激活参数开启前沿级智能

步骤 3.5 快闪：以 11B 激活参数开启前沿级智能

Ailin Huang, Ang Li, Aobo Kong, et al.

世界-VLA-环：视频世界模型与VLA策略的闭环学习

世界-VLA-环：视频世界模型与VLA策略的闭环学习

Xiaokang Liu, Zechen Bai, Hai Ci, et al.

迈向自主数学研究

迈向自主数学研究

检索增强生成

Tony Feng, Trieu H. Trinh, Garrett Bingham, et al.

Agent世界模型：用于智能体强化学习的无限合成环境

Agent世界模型：用于智能体强化学习的无限合成环境

Zhaoyang Wang, Canwen Xu, Boyi Liu, et al.

P1-VL：连接视觉感知与物理奥赛中的科学推理

P1-VL：连接视觉感知与物理奥赛中的科学推理

多模态表征

Yun Luo, Futing Wang, Qianjia Cheng, et al.

思维链：基于自适应认知模式的推理

思维链：基于自适应认知模式的推理

Tianyi Jiang, Arctanx An, Hengyi Feng, et al.

UI-Venus-1.5 技术报告

UI-Venus-1.5 技术报告

Veuns-Team, Changlong Gao, Zhangxuan Gu, et al.

Code2World：一种通过可渲染代码生成的GUI世界模型

Code2World：一种通过可渲染代码生成的GUI世界模型

Yuhao Zheng, Li'an Zhong, Yi Wang, et al.

OPUS：面向大语言模型预训练中每轮迭代的高效且原则性数据选择

OPUS：面向大语言模型预训练中每轮迭代的高效且原则性数据选择

Shaobo Wang, Xuan Ouyang, Tianyi Xu, et al.

BagelVLA：通过交错视觉-语言-动作生成提升长时程操作能力

BagelVLA：通过交错视觉-语言-动作生成提升长时程操作能力

统一多模态

Yucheng Hu, Jianke Zhang, Yuanfei Luo, et al.

THINGS-data，一个用于研究人类大脑与行为中物体表征的多模态大规模数据集

THINGS-data，一个用于研究人类大脑与行为中物体表征的多模态大规模数据集

多模态表征

Martin N Hebart Oliver Contier, Lina Teichmann, Adam H Rockter, et al.

使用IsoDDE进行新型生物分子相互作用的精准预测

使用IsoDDE进行新型生物分子相互作用的精准预测

Isomorphic Labs Team

SkillRL：通过递归技能增强的强化学习进化Agent

SkillRL：通过递归技能增强的强化学习进化Agent

Peng Xia, Jianwen Chen, Hanyang Wang, et al.

LLaDA2.1：通过Token编辑加速文本扩散

LLaDA2.1：通过Token编辑加速文本扩散

Tiwei Bie, Maosong Cao, Xiang Cao, et al.

通过建模基于流的GRPO中的步骤级与长期采样效应缓解稀疏奖励问题

通过建模基于流的GRPO中的步骤级与长期采样效应缓解稀疏奖励问题

Yunze Tong, Mushui Liu, Canyu Zhao, et al.