实测苹果M3 Ultra运行DeepSeek R1满血版：速度超过8卡A100

近日，B站UP主“虽然但是张黑黑”分享了一段视频，展示了满血版苹果M3 Ultra运行6710亿参数的DeepSeek R1模型的测试结果，其速度甚至超过了8张A100显卡，而成本却低得多。

运行6710亿参数的DeepSeek R1模型通常需要一台搭载6-8张A100的专业级服务器，总价轻松超过百万元这对于普通用户来说几乎是不可能负担的。

然而满血版M3 Ultra仅需一台Mac Studio即可实现类似性能，性价比极高。

测试结果显示，在运行DeepSeek R1模型时，8张A100显卡的性能为16.41 Tokens/s，而满血版M3 Ultra在GGUF格式下达到15.78 Tokens/s，

切换到能发挥统一内存优势的MLX格式后，速度提升至19.17 Tokens/s，超越8张A100显卡，此外M3 Ultra在运行DeepSeek V3 6710亿参数模型时，速度也达到了19.66 Tokens/s。

不过这并不意味着M3 Ultra在所有场景下都能超越A100，单用户进行单一模型推理时，主要依赖内存带宽和容量，无法完全发挥A100的潜力，在多用户推理和大模型训练场景下，M3 Ultra则完全无法与A100相提并论。

此外，M3 Ultra在大语言模型推理速度测试中表现优异，无论是Llama 3.1 70B、Gemma2 27B还是Qwen 2.5 14B模型，其速度都明显优于其他M系列芯片，与M2 Ultra相比，速度分别提升了13%、34%和18%。

此次测试的满血版M3 Ultra配备了512GB统一内存，总价为74249人民币，对于大多数用户来说，如果不需要运行如此大规模的模型，可以适当降低统一内存容量，从而节省成本。