vLLM + Open WebUI 部署 NVIDIA-Nemotron-Nano-9B-v2
一、教程简介
NVIDIA-Nemotron-Nano-9B-v2 是由 NVIDIA 团队于 2025 年 8 月 19 日推出的轻量级大语言模型。作为 Nemotron 系列的混合架构优化版本,该模型创新性融合 Mamba 高效长序列处理与 Transformer 强语义建模能力,仅以 90 亿(9B)参数就实现了 128K 超长上下文支持,在边缘计算设备(如 RTX 4090 级 GPU)上的推理效率与任务性能,可对标同参数规模的前沿模型,标志着大语言模型在轻量化部署与长文本理解领域的重大突破。相关论文成果为「NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model」。
本教程采用资源为单卡 RTX A6000 。
二、项目示例

三、运行步骤
1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后,即可与模型展开对话
若不显示「Model」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。
使用步骤

四、交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息
本项目引用信息如下:
@misc{nvidia2025nvidianemotronnano2,
title={NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model},
author={NVIDIA},
year={2025},
eprint={2508.14444},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2508.14444},
}