ROCm加持出图效率翻倍！AMD RX 7900 XT Linux系统 AI性能体验

时间 • 2025-06-20 02:15:54

效率

系统

性能

Windows

ROCm加持出图效率翻倍！AMD RX 7900 XT Linux系统 AI性能体验

一、ROCm：一个可移植、高性能的GPU计算平台

随着AI时代的来临，显卡的作用不再仅仅只局限于游戏，特别是在StableDiffusion火爆全网之后，越来越多的玩家将显卡当成AIGC生产力工具。

只不过，StableDiffusion的早期版本对AMD显卡支持不太友好，给大家造成了只有N卡才适合玩AI的错觉。

可能很多同学不知道的是，AMD的RadeonGPU也是能够做深度学习的，而且性能也并不差。

去年12月份，AMD推出的ROCm6.0开发平台进一步优化了RX7000系列显卡的AI性能，特别是StableDiffusion的出图效率更是获得了翻倍提升。

这里先解释一下什么是AMDROCm！

ROCm（RadeonOpenComputePlatform）是AMD基于开源项目的GPU计算生态系统，类似于NVIDIA的CUDA。

ROCm支持多种编程语言、编译器、库和工具，以加速科学计算、自动驾驶、人工智能和机器学习等领域的应用。

ROCm还支持多种加速器厂商和架构，提供了开放的可移植性和互操作性。

目前深度学习开发一般都是使用Python，而大数据平台往往都会部署在Linux操作系统之上。因此，AMDROCm目前主要精力放在Linux系统上，Windows端则还有待完善。

得益于双发射设计的流处理器单元，RX7900XT仅凭5376个流处理器就达到了52TFOPS的单精度浮点运算性能，而拥有10240个流处理器的RTX4080Super浮点性能同样则是55TFOPS。

至于RX7900XTX，其单精度浮点性能则接近60TFOPS。

StableDiffusion主要依赖GPU的单精度浮点性能以及显存容量与带宽，这两方面RX7900XT都不逊于RTX4080SUPER，甚至显存容量还更大一些。

现在有了AMDROCm6.0的加持，终于可以发挥出这张顶级显卡强大的AI算力。

二、StableDiffusion出图速度对比：Linux系统下出图效率近乎翻倍

测试平台如下：

本次我们主要对比RX7900XT/XTX在Ubuntu与windows系统下的出图效率，看看AMDROCm到底能带来多大提升。

1、RX7900XT对比测试

首先是Windows11系统，打开StableDiffusion之后，我们设置DPN++2MKarras采样、迭代步数50、Eulera采样、1024x768分辨率、CFG为7、总批次10，单批数量1。

在Windows系统下，RX7900XT基于DirectML加速模式生成10张图共计耗时9分51秒，也就是591秒。

进入Ubuntu22.04.3LTS系统，设置好ROCm之后，同样的参数与模型生成10张图只用掉了5分05秒，即305秒。

对比之下，在Ubuntu22.04.3LTS系统下，RX7900XT的出图效率相比Windows系统高了足足94%。

2、RX7900XTX对比测试

使用同样的参数来测试RX7900XTX显卡。

在Windows系统下，RX7900XTX基于DirectML加速模式生成10张图总计耗时9分18秒，也就是558秒。

进入Ubuntu22.04.3LTS系统，设置好ROCm之后，同样的参数与模型生成10张图只用掉了4分45秒，即285秒。

在Ubuntu22.04.3LTS系统下，RX7900XTX的出图效率相比Windows系统领先了96%，也就是近乎翻倍的性能提升。

三、小结：高性价比的AIGC显卡

目前一张非公RX7900XT售价在5299元左右，对位的非公RTX4080Super售价则是8599元，N卡贵了60%。其实在游戏性能方面，这两款显卡并没有太大差距。

现在AMD也意识到了AI应用对于GPU的重要性，加大了对AMDROCm平台的投入，经过不断的更新，如今AMDROCm6.0在AI算力方面的提升早已超出了大多数玩家的认知。

在我们的测试中，RX7900XT在Linux系统下使用StableDiffusionROCm6.0版时，其出图效率几乎是Windows系统的2倍。再加上55TFOPS的单精度浮点运算性能以及20GBGDDR6X超大容量显存，对于有较高专业AIGC应用需求的专业用户而言，在有限的预算下，RX7900XT可以说是非常适合的选择。

当然，也希望AMD能够继续优化ROCm在Windows系统下的性能表现，让更多的AMD用户能拥有属于自己的高性价比AIGC显卡。