HyperAI

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

OpenThoughts-Agent: Data Recipes for Agentic Models

Agent

Model Training

Negin Raoof, Richard Zhuang, Marianna Nezhurina, et al.

LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis

LLM

Benchmarks

Shihao Xu, Tiancheng Zhou, Jiatong Ma, et al.

AOHP: An Open-Source OS-Level Agent Harness for Personalized, Efficient and Secure Interaction

Agent

Shanhui Zhao, Jiacheng Liu, Guohong Liu, et al.

MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management

Agent

Multimodal

Guangyi Liu, Gao Wu, Congxiao Liu, et al.

MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization

Agent

Multimodal

Guangyi Liu, Pengxiang Zhao, Gao Wu, et al.

NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?

Benchmarks

AI for Science

Yuru Wang, Lejun Cheng, Yuxin Zuo, et al.

Qwen-AgentWorld: Language World Models for General Agents

Agent

LLM

Yuxin Zuo, Zikai Xiao, Li Sheng, et al.

Rethinking Training Targets, Architectures and Data Quality for Universal Speech Enhancement

Audio and Speech Processing

Text-to-Speech

Szu-Wei Fu, Rong Chao, Xuesong Yang, et al.

Generative 3D Gaussians with Learned Density Control

3D Generation

Diffusion Model

Runjie Yan, Yan-Pei Cao, Peng Wang, et al.

TADA: A Generative Framework for Speech Modeling via Text-Acoustic Dual Alignment

Text-to-Speech

LLM

Trung Dang, Sharath Rao, Ananya Gupta, et al.

Beyond Isolated Words: Diffusion Brush for Handwritten Text-Line Generation

Diffusion Model

Image Generation

Gang Dai, Yifan Zhang, Yutao Qin, et al.

gsplat: An Open-Source Library for Gaussian Splatting

PyTorch

3D Model

Vickie Ye, Ruilong Li, Justin Kerr, et al.

OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

Video Understanding

Visual Question Answering

Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang, et al.

OPEN-SWE-TRACES: Advancing Dual-Mode Multilingual Distillation for Software Engineering Agents

Code Generation

Text Generation

Wasi Uddin Ahmad, Nikolai Ludwig, Somshubra Majumdar, et al.

Credit Assignment with Resets in Language Model Reasoning

Reinforcement Learning

LLM

Ankur Samanta, Akshayaa Magesh, Ayush Jain, et al.

Unlimited OCR Works: Welcome the Era of One-shot Long-horizon Parsing

OCR

Transformer

Baoding Zhou, Jingyun Wang, Xiaolin Wei, et al.

PlanBench-XL: Evaluating Long-Horizon Planning of LLM Tool-Use Agents in Large-Scale Tool Ecosystems

Agent

LLM

Jiayu Liu, Qihan Lin, Cheng Qian, et al.

OpenRath: Session-Centered Runtime State for Agent Systems

Agent

Fukang Wen, Zhijie Wang, Ruilin Xu

EvoEmbedding: Evolvable Representations for Long-Context Retrieval and Agentic Memory

Retrieval-Augmented Generation

Agent

Chang Nie, Chaoyou Fu, Junlan Feng, et al.

Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

Reinforcement Learning

LLM

Zhilin Huang, Hang Gao, Ziqiang Dong, et al.

World Action Models: A Survey

Video Generation

Agent

Qiuhong Shen, Shihua Zhang, Yue Liao, et al.

KaLM-Reranker-V1: Fast but Not Late Interaction for Compressed Document Reranking

Transformer

LLM

Xinping Zhao, Jiaxin Xu, Ziqi Dai, et al.

Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe

Model Training

LLM

Qian Zhao, Kunlong Chen, Changxin Tian, et al.

HydraHead: From Head-Level Functional Heterogeneity to Specialized Attention Hybridization

Transformer

LLM

Zhentao Tan, Wei Chen, Jingyi Shen, et al.

3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code

Code Generation

3D Model

Yipeng Gao, Lei Shu, Genzhi Ye, et al.

RadImageNet-VQA: A Large-Scale CT and MRI Dataset for Radiologic Visual Question Answering

Medical Imaging

Visual Question Answering

Leo Butsanets, Charles Corbiere, Julien Khlaut, et al.

Training Software Engineering Agents and Verifiers with SWE-Gym

Agent

Supervised Fine-Tuning

Jiayi Pan, Xingyao Wang, Graham Neubig, et al.

MAKIEVAL: A Multilingual Automatic WiKIdata-based Framework for Cultural Awareness Evaluation for LLMs

LLM

Text Generation

Raoyuan Zhao, Beiduo Chen, Barbara Plank, et al.

GeneralVLA-2: Geometry-Aware Reconstruction and Governed Memory for Robot Planning

3D Machine Vision

Retrieval-Augmented Generation

Haoyu Wang, Guoqing Ma, Zeyu Zhang, et al.

Multi-Turn Reflective Masking Elicits Reasoning in Mask Diffusion Models

Diffusion Model

Text Generation

Yanming Zhang, Yihan Bian, Jingyuan Qi, et al.

BrainG3N: A Dual-Purpose Tokenizer for Controllable 3D Brain MRI Generation

Diffusion Model

3D Generation

Max Van Puyvelde, Ibrahim Gulluk, Wim Van Criekinge, et al.

GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents

Agent

Benchmarks

Zhe Ren, Yibo Yang, Yimeng Chen, et al.

Command Palette

Papers

Command Palette

Papers

Command Palette

Papers