AMD AI9 365 GPU在llama.cpp 性能测试对比表(ROCm vs Vulkan)

在笔记本上简单测试了下ROCM和Vulkan的性能对比.叫AI整理了下结果如下.

llama.cpp 性能测试对比表(ROCm vs Vulkan)

设备:AMD Radeon Graphics (gfx1150/RADV STRIX1),24GB VRAM

版本:llama.cpp build e34f04215 (8740),nGL=99,Q4_K_M 量化

测试项:pp512 = 提示词处理速度,tg128 = 文本生成速度(t/s)

表格

模型名称大小参数后端pp512 速度tg128 速度
Qwen3.5-27B15.39 GiB26.90 BROCm102.70 ± 0.984.38 ± 0.03
Qwen3.5-27B15.39 GiB26.90 BVulkan72.92 ± 0.194.58 ± 0.02
Gemma-4-31B17.39 GiB30.70 BROCm86.15 ± 2.084.03 ± 0.01
Gemma-4-31B17.39 GiB30.70 BVulkan60.68 ± 0.093.90 ± 0.01
Gemma-4-26B-A4B15.63 GiB25.23 BROCm408.04 ± 10.5924.91 ± 0.18
Gemma-4-26B-A4B15.63 GiB25.23 BVulkan368.42 ± 9.5525.94 ± 0.11
Qwen3.5-35B-A3B20.49 GiB34.66 BROCm347.97 ± 15.1122.15 ± 0.15
Qwen3.5-35B-A3B20.49 GiB34.66 BVulkan348.96 ± 4.8824.44 ± 0.07

核心结论(一眼看懂)

  1. 常规大模型(27B/31B)ROCm 提示词处理速度显著更快,生成速度两者接近
  2. MoE 混合专家模型(26B-A4B/35B-A3B)Vulkan 生成速度小幅领先,处理速度几乎持平
  3. 整体:ROCm 更适合普通大模型推理,Vulkan 对 MoE 模型生成优化更好
Leave a Reply

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注