b369648a2ba2edfb896d0020c5cbfb6d.gif

编译 | 苏宓

出品 | CSDN(ID:CSDNnews)

大模型这场竞赛正酣,国内外科技巨头、创业公司“打”得异常火热。从不断升级的 OpenAI GPT 系列、Google Gemini,到国产大模型 DeepSeek 以及这两天爆火的 Manus,各大厂商你追我赶,唯独苹果自推出 Apple Intelligence 之后,似乎没了太大动静。然而,就在外界以为苹果就要错失先机时,没想到其重磅发布了一款 Mac Studio,从硬件层面为大模型的运行铺了路。

新款 Mac Studio 提供了号称地表最强的全新 M3 Ultra 和 M4 Max 芯片两种选择。其中,M3 Ultra 芯片加持下的 Mac Studio,最高可配备 32 核 CPU 和 80 核 GPU,并支持高达 512GB 的统一内存。

有专门在各种设备上尝试跑大模型的机构深入分析显示,这款设备能够运行超 6000 亿参数的 LLM(大语言模型)。换句话说,个人用户在家就能流畅运行完整体量的 DeepSeek R1,这一突破让众多 AI 爱好者兴奋不已。

07c213ac433594137743a0440ec18f3e.jpeg

cbe8d7c420f4d4892d7bb4cad59fc803.png

搭载 M3 Ultra 芯片的 Mac Studio 来了

值得一提的是,备受期待的 M3 Ultra 版 Mac Studio 今日正式开启预售,成为目前配置最强的 Mac Studio 机型。

与 M1 Ultra、M2 Ultra 类似,全新的 M3 Ultra 实际上是由两颗 M3 Max 处理器通过台积电的先进封装技术(苹果将其称为“UltraFusion”)拼接在一起的。从外部看是一颗芯片,但内部实际上是两个 M3 Max 组合,总共包含 1840 亿个晶体管。

相比前代,M3 Ultra 带来了大幅升级。该芯片最多可配置 32 核(24 颗高性能核心和 8 颗高能效核心),而 M2 Ultra 的最高配置为 24 核(16 颗高性能核心和 8 颗高能效核心)。苹果表示,这使得 M3 Ultra 相比 M2 Ultra 性能提升 50%,相比初代 M1 Ultra 提升 80%。

GPU 方面,这一代的 M3 Ultra 最高配备 80 核,相较于 M2 Ultra 的 76 核提升不大。不过,苹果在 2023 年 10 月的“Scary Fast”活动中就提到,真正影响 GPU 速度的,更多是架构优化,而不只是核心数量。

苹果还强调,M3 系列的 GPU 核心相比 M2 系列快 80%,部分原因在于引入了硬件加速的网格着色(Mesh Shading)和光线追踪(Ray Tracing)技术。再加上 M3 Ultra 额外的 GPU 核心,苹果表示其图形处理性能大约是 M2 Ultra 的两倍。

此外,M3 Ultra 还配备了 32 核神经引擎(Neural Engine),用于加速 Apple Intelligence 相关的 AI 任务。在 AI 计算领域,最关键的升级点其实是内存。苹果表示,搭载 M3 Ultra 芯片的 Mac Studio 最低配置 96GB 的统一内存,最高可选配至 512GB,达到个人电脑迄今统一内存配置之最。

c085e3dfd49201d7b765b87449618feb.png

两台 Mac Studio 可以跑满血版 DeepSeek R1

因为以上强大的更新,据苹果介绍,搭载 M3 Ultra 的 Mac Studio,足以运行“参数超过 6000 亿”的 LLM。

根据苹果官网显示,M3 Ultra 版 Mac Studio 运行数千亿参数大模型的 token生成速度是 M1 Ultra 的 16.9 倍。

48f885ccaa365619fae93deb701ce18b.png

正因此,Mac Studio 已成为 AI 研究人员和爱好者的热门选择之一,被认为是运行高参数大模型最具性价比的平台之一。

据外媒 The Register 披露,凭借 800GB/s 的内存带宽,在家跑类似 DeepSeek R1 这样的模型完全可行(至少在 4-bit 精度下)。DeepSeek R1 拥有 6710 亿个参数,加载后内存占用超过 400GB。但由于采用了 Mixture of Experts(MoE)架构,实际同时激活的参数只有 370 亿个,这意味着生成速度可以达到 20~30 tokens 每秒。

针对这一可行性的计划,国外一家专注于在不同设备上运行大模型的 EXO Labs 在 X 平台表示,「两台配备 512GB 内存(总价 18,000 美元)的 M3 Ultra Mac Studio,通过 Thunderbolt 5 连接后,可以以 20 tokens/秒的速度运行满血的 DeepSeek R1(8-bit)」。

56241d39b92ba47869404a718cf4d842.png

此外,Exo Lab 创始人 Alex Cheema 也发布长文分享道,“苹果这次的时机再好不过了。512GB 版 M3 Ultra Mac Studio 非常适合运行超大规模的稀疏 MoE(专家混合)模型,比如 DeepSeek V3/R1。如果你想在家运行完整、未量化的 DeepSeek R1,你只需要两台 512GB 版 M3 Ultra Mac Studio,再配合 @exolabs,就可以实现。”

4664b44cfa942cc2111a677626bced19.png

那么 Mac Studio 上跑大模型的成本如何?

Alex Cheema 算了笔账,并分享了其最新观点。他表示,想跑这些超大的 AI 模型,第一步就是让它们塞进显存(或者是苹果称之为的“统一内存”)。那问题来了,不同平台的内存价格和性能差距有多大?

对此,他做了一个不同硬件平台的内存容量、带宽和成本的对比(注意:这里没有包含 DIGITS 相关数据,因为具体细节尚未确认):

硬件

内存大小

内存带宽

价格

每 GB 内存成本

NVIDIA H100

80GB

3TB/s

$25,000

$312.50/GB

AMD MI300X

192GB

5.3TB/s

$20,000

$104.17/GB

Apple M2 Ultra

192GB

800GB/s

$5,000

$26.04/GB

Apple M3 Ultra

512GB

800GB/s

$9,500

$18.55/GB

相比 M2 Ultra,M3 Ultra 在每 GB 内存成本上降低了 28%,性价比提升了不少。

不过,Alex Cheema 认为,苹果的 M3 Ultra 的 Mac Studio 短板也很明显。有个问题就是——“内存刷新率”,也就是设备的内存带宽和内存大小的比值。这个数值决定了设备每秒可以完整读写多少次全部内存,对单条输入(batch_size=1)推理速度 影响很大。如果是一个会占满设备全部内存的密集型模型,它的最大理论 token 生成速率就受这个数值限制。

硬件

内存刷新率(每秒)

NVIDIA H100 (80GB)

37.5 次

AMD MI300X (192GB)

27.6 次

Apple M2 Ultra (192GB)

4.16 次(比 H100 低 9 倍)

Apple M3 Ultra (512GB)

1.56 次(比 H100 低 24 倍)

可以看出,苹果用更大内存换来了更低的刷新率,M3 Ultra 的这个数值甚至比 H100 低 24 倍。换句话说,苹果设备更适合那些需要大量内存、但对带宽要求不高的 AI 模型。

再看看单位带宽的成本(每 1GB/s 内存带宽需要多少钱,数值越低越划算):

硬件

每 GB/s 带宽成本

NVIDIA H100 (80GB)

$8.33

AMD MI300X (192GB)

$3.77

Apple M2 Ultra (192GB)

$6.25

Apple M3 Ultra (512GB)

$11.875

从数据来看,M3 Ultra 在这方面性价比比 M2 Ultra 还差,不过它的优势在于超大容量的内存。

在 Alex Cheema 看来,Alex Cheema 苹果这套方案,在稀疏模型上特别吃香,比如 MoE(专家混合)和模块化路由(Modular Routing) 这种架构:

  • MoE(专家混合):

MoE 结构在每一层都有多个“专家”(子模型),但每次推理时只激活其中的 一小部分。比如 DeepSeek R1 的激活率是 1/32(8/256),如果未来能优化到 1/128(8/1024),那就更适合 M3 Ultra 了,因为它主要依赖大内存,而不是高带宽。

  • 模块化路由(Modular Routing):

这类方法(比如 DiPaCo)会用多个小模型,然后由一个“控制器”决定激活哪些模型,把结果组合起来。这个方案也是需要大内存但对带宽要求低,刚好适合 M3 Ultra。

这两种方法的共同点是:

  • 需要大容量内存

  • 对内存带宽要求不高

  • 一次推理只激活部分参数

所以,虽然 M3 Ultra 带宽没优势,但对于只激活少量参数的 AI 模型,它反而是个不错的选择。

Alex Cheema 预测道,“如果明年苹果推出 M4 Ultra 版 Mac Studio,很可能会提升带宽。因为苹果的 UltraFusion 技术是把两块 Max 芯片拼在一起,而 M4 Max 的内存带宽比 M3 Max 提升了 36.5%,所以如果 M4 Ultra 继续用类似架构,带宽问题应该能得到改善(甚至可能会有更大提升)。”

总的来说,M3 Ultra 目前是一个高内存、低带宽的 AI 计算平台,它非常适合稀疏专家模型(MoE)和模块化 AI 结构。如果苹果在 M4 Ultra 上进一步提升带宽,那么它在 AI 计算领域的竞争力会更强。

56d4e2f8a23c2a626270e6bc26a9f00a.png

价格不菲的 Mac Studio

不过,对于个人爱好者而言,想用 Mac Studio 跑这种模型,就如 Alex Cheema 计算的,价格可不便宜。要把内存升级到 512GB,就得额外加 5,500 美元,国行版本从 96GB 统一内存升级到 512GB 就需要加 3 万元,这样一来,M3 Ultra 版 Mac Studio 的起价(32核CPU+80核GPU+512GB 统一内存+1TB 固态硬盘)就飙升到 74249 元,而且这还只是基础配置,不包含存储升级。如果选满 16TB 的 SSD,即 32核CPU+80核GPU+512GB统一内存+16TB固态硬盘需要 108749 元。如果按照 Exo Labs 提到的配置,两台 Mac Studio 满配下来需要 217,498 元,价格着实不菲。

对此,The Register 指出,虽然高端 Mac Studio 用的是 M3 Ultra,但基础款其实搭载的是 M4 Max——这颗芯片去年秋天就已经在 MacBook Pro 上亮相了。M4 Max 最高配备 16 核 CPU(12 颗高性能核心 + 4 颗高能效核心)、40 核 GPU,并支持最高 128GB 统一内存,存储也能扩展到 8TB。不过,考虑到苹果的存储溢价一向不低,而 Mac Studio 主要是桌面设备,更划算的方案可能是选外接 USB4 或 Thunderbolt 存储,性价比更高。

尽管价格不菲,Mac Studio 的发布还是让不少 AI 爱好者兴奋不已,不少人涌入社交平台分享自己的最新看法。

来自 X 平台的用户 Aaron Ng 评价道:“苹果的 512GB Mac Studio 绝非噱头。别说大多数 PC 只能支持 128GB 内存了,而且还不是显存(VRAM)。512GB 统一内存的规格,已经能与那些售价五位数的高端 GPU 相媲美。这台机器不仅能跑 DeepSeek R1,几乎所有 AI 任务都能轻松应对。在 AI 计算领域,没有比这更强的个人电脑了。”

299edf51199d1a42d0ac90627daf82fc.png

还有网友直言:

  • “这可能是全球首款能在家里直接跑满血版 DeepSeek V3/R1 的「桌面超算」。”

  • “支持 512GB 统一内存,让 M3 Ultra 版 Mac Studio 成为了性价比最高的大模型一体机。”

当然也有人觉得普通用户围观一下即可,毕竟价格摆在那里:

“DeepSeek R1 是一个拥有 6710 亿参数的超大规模 AI 模型,通常需要强大的硬件才能运行。

苹果最新的 M3 Ultra 版 Mac Studio,配备 512GB 内存,确实可以运行这个模型,但如果想在家完整运行未量化版本,需要两台设备协同工作。

虽然技术上可行,但这种配置价格昂贵,更适合研究人员或 AI 爱好者,而非普通用户。

对于大多数人来说,运行较小或经过量化优化的 AI 模型会更实际,同时依然能提供出色的性能。”

2bc22a904644b5b62e136cb37fd5e9b5.png

对此,你怎看?会买 Mac Studio 来跑大模型吗?

参考:

https://www.theregister.com/2025/03/05/apple_m3_ultra_mac_studio/

https://x.com/alexocheema/status/1897473357756416291

推荐阅读:

▶实测 Manus:DeepSeek 之后,AI 又点了一把火

▶邀请码炒到5万元!Manus一夜爆火,创始人为中国90后

▶清华大学朱军教授将出席 2025 全球机器学习技术大会并发表演讲!

图片

Logo

为开发者提供按需使用的算力基础设施。

更多推荐