AMD为锐龙AI Max处理器带来升级，可划分更多的显存运行128B LLM模型

科技作者：超能网发布于 2025-07-30 6 0

在年初的CES 2025上，AMD推出了锐龙AI Max系列处理器Strix Halo，它拥有2个Zen 5架构CCD最多16个内核，并拥有最多40组RDNA 3.5架构CU的超大核显，并配备256位的LPDDR5X内存控制器，当时他们已经演示过用这款处理器使用llama.cpp和LM Studio在本地运行Llama 70B模型，这样轻薄PC在本地运行较大的LLM模型成为可能。

现在AMD宣布对锐龙AI Max的可变显存进行重大升级，即将推出的Adrenalin Edition 25.8.1 WHQL驱动程序可以让配备128GB内存的锐龙AI MAX设备划分96GB作为显存使用，这让它能够运行128B个参数的大模型。

AMD表示已经成功使用锐龙AI Max+ 395处理器成功在本地运行Meta的Llama 4 Scout 109B模型，成为首款成功运行该模型的Windows AI处理器，并支持视觉和MCP，Llama Scout采用混合专家模式，所以每次只有17B处于活动状态，所以可保持较快的输出，最多可实现15tokens/s的生成速度。

锐龙AI Max处理器支持最小1B的微型模型到最大128B的模型，支持包括GGUF在内的多种量化格式，使其能够灵活地适用于不同场景。这次升级还增大的对大兴上下文大小的支持，大多数设置的最大令牌数约为4096个，但这次升级后锐龙AI Max平台可以扩展至256000个令牌，这需要开启Flash Attention功能，启用KV Cache Q8，这运行在上下文中保存大量令牌，使其支持更高级的任务，例如解析和汇总整个文档。

当然了这都需要你的锐龙AI Max搭载了128GB内存，通常来说这样的设备价格都不便宜，而且它使用是LPDDR5X内存，也不支持扩展，而目前拥有这类设备的用户可以在AMD官网上下载预览版驱动提前尝鲜。