在过去十年,以 GPU 为基础的数字计算一直是人工智能领域的主导力量。行业普遍认为,通过构建更大的计算集群、提升数据传输带宽、使用更强大的 GPU 以及建设更密集的数据中心,是推动下一代 AI 发展的关键。
然而,随着模型参数量逼近万亿级别,人工智能的“能耗”问题日益受到关注。一个更根本的挑战也浮现出来:如果 AI 继续以当前的速度扩张,其所需的电力将从何而来?
显而易见,AI 的“电费账单”和能源消耗已从单纯的运营成本,演变成制约整个行业发展的“结构性瓶颈”。
为了应对这一迫在眉睫的能源挑战,前 Databricks AI 负责人、硅谷知名创业者 Naveen Rao 创立了全新的硬科技初创公司 Unconventional AI,并由此进入公众视野。
Unconventional AI 于今日宣布了其首个模型 Un-0 的发布。Un-0 是一个由“模拟耦合振子系统”驱动的图像生成模型,可被视为一种新型物理计算基础架构的范例。在 ImageNet 64×64 数据集上,Un-0 达到了 6.74 的 FID 分数,其生成图像的质量已接近一些主流传统图像生成方法初发布时的水平。
Naveen Rao 将 Un-0 描述为“第一个以物理作为计算原语构建的大规模生成模型”。
他表示:“这标志着基于物理的模型迎来了‘Hello World’时刻。我们利用物理系统固有的随时间演化行为来完成计算。这最终将带来一种全新的计算架构构建方式,并有望在能效方面实现显著提升。”
Naveen Rao 在接受媒体采访时,甚至提出了一个更为宏大的目标:未来有望将 AI 推理的能耗降低到现有系统的千分之一。
Un-0 生成过程的动态演化样本。图中每条彩色线条代表一个颜色相似的方框,方框内标注了类别,并展示了该类别图像随时间逐步生成的过程。
官方发布了一篇博客文章详细介绍了 Un-0,以下将进一步探讨。
Un-0 的出发点:利用物理系统重构 AI 计算
Unconventional AI 的目标是构建一种新型计算机,使其能够利用物理定律来执行计算。他们希望未来现代 AI 能够在远低于当前机器的能耗下运行,目标是实现约 1000 倍的能耗降低。
为此,他们提出了一个核心问题:能否训练一个物理动力系统来完成大规模图像生成任务?
目前最先进的 AI 模型大多基于传统的深度网络,特别是以 Transformer 为核心的模型。然而,在主流路线之外,长期以来一直有研究致力于利用物理系统的动态行为来提高能效,例如模拟电路中的噪声、时间变化、电压和电流等。这类方法并非使用传统的数字数值进行计算,而是依赖于物理系统自身的演化过程。
相关研究领域包括神经形态计算、Hopfield 网络、Reservoir Computing,以及近年来发展的 Hamiltonian Networks、Liquid Networks、Neural Wave Machines、Thermodynamic Computing 和 Kuramoto Oscillators 等。
Un-0 正是在这些非传统计算路径上的又一次探索。其关键挑战在于,如何有效地将 AI 任务映射到物理系统的动态过程中。Un-0 的目标是验证现代 AI 工作负载是否能够运行在物理基础架构上,并最终比当前的硬件更高效。
Un-0 的工作原理
官方将 Un-0 的工作原理比作两个并排滴答作响的节拍器。
每个节拍器都有一个“相位”,即摆臂当前在摆动周期中的位置。如果两个节拍器放置在同一张桌子上,它们会通过桌面相互影响。根据相互作用的强度,即耦合强度,它们可能会逐渐同步,或者进入反相位的同步状态。
这就是振子的基本概念:每个振子都有自己的相位,并倾向于以自身频率振荡,同时也会受到邻近振子的影响。
当振子数量扩展到数千个时,整个系统会变得更加复杂。大量振子之间存在不同强度的耦合关系,它们通过相互作用自组织成特定的模式。
Un-0 的计算引擎便是一个大规模的振子群体,其中振子间的耦合强度是模型最主要的学习参数。
这些耦合振子通常被建模为“Kuramoto 振子”。
具体而言,每个振子的运动遵循一个简单的规则,并且该规则会持续生效:一方面,它按照自身固有频率振荡;另一方面,它受到其他所有振子的牵引而发生偏移。
一个常微分方程(ODE)描述了这些振子随时间演化的过程:
每个振子 i 都拥有一个相位 θ_i,其范围在 [0, 2π) 之间,其中 ω_i 表示其固有频率。矩阵 K 则定义了耦合强度,用于确定振子 j 对振子 i 的同步牵引或排斥作用力的大小。
Un-0 需要学习的正是耦合矩阵 K 和固有频率 ω,这些参数共同定义了物理系统本身。
Unconventional AI 提出了选择振子的两个主要原因:
Un-0 背后的核心论点是:如果物理规律能够直接计算 AI 工作负载,那么未来的计算基础架构将可能与今天的 GPU 大相径庭。
Un-0 的模型架构
Un-0 生成一张图像大致包含以下五个步骤:
耦合振子在学习到的耦合关系作用下随时间演化。其中,条件振子与主振子池之间存在一个单向的低秩类别条件矩阵,用于注入类别信息。在时间点 T,系统通过一个解码器读取振子状态并生成图像。通过多次采样不同的初始条件,可以生成对应的图像分布。
在训练过程中,模型主要学习三类参数:振子之间的耦合方式(即矩阵 K);每个振子的固有频率 ω;以及解码器的权重。整体而言,振子系统承担了原本可能由传统神经网络层完成的计算任务。
Unconventional AI 解释,选择这种架构是为了让动力系统本身拥有最大的自由度来完成计算。
在训练的前向传播过程中,模型只需设定耦合矩阵、振子频率和初始相位,然后让动力系统自行演化,最后读取图像的潜在变量。
这与扩散模型或 Flow Matching 等动态生成方法有所不同,后两者通常在训练过程中明确指导动力系统的演化过程。而 Un-0 的方法更像是仅关注最终生成的样本,然后通过损失函数反向优化整个动力系统。
这样做的代价是,它需要一种更复杂的损失函数,因为训练信号主要来自于生成样本本身。
如何训练 Un-0?
Unconventional AI 在 CIFAR-10 和 ImageNet 64×64 数据集上分别训练了三种规模的模型,结果如下:
在 CIFAR-10 数据集上的训练结果。
在 ImageNet 64×64 数据集上的训练结果。
结果显示,随着振子数量的增加,模型的 FID 分数持续改善。最大的 ImageNet 64×64 模型使用了 16384 个振子,总参数量约为 3.22 亿,FID 分数达到了 6.74。
在训练方法上,他们采用了一种新提出的“漂移损失”(Drifting Loss)函数,并结合 DINOv2 特征提取器和 AdamW 优化器进行端到端训练。
在评估方面,CIFAR-10 模型使用 5 万张生成样本,并与 CIFAR-10 参考统计数据进行比较;ImageNet 64×64 模型同样使用 5 万张生成样本,并通过 ADM evaluation suite 计算 FID。
计算资源方面,所有 CIFAR-10 模型均在 1 张 B200 GPU 上训练,而所有 ImageNet 64×64 模型则在 8 张 B200 GPU 上训练。最大的 CIFAR-10 模型训练耗时 20 个 B200 GPU 小时,最大的 ImageNet 64×64 模型训练耗时 640 个 B200 GPU 小时。
官方表示,训练的瓶颈主要来自于“漂移损失”函数的计算,因为它需要使用传统的图像特征提取器,并在多个特征视图上进行计算。
Un-0 在图像生成领域处于什么位置?
为了更清晰地展示 Un-0 的性能表现,Unconventional AI 将 Un-0 与传统模型和非传统模型进行了对比,绘制了“生成质量 vs 参数数量”的曲线图。
CIFAR-10 数据集中参数数量与 FID 值的对应关系。
在 64×64 尺寸图像生成方面,参数数量与 FID 值的对应关系。
结论是:Un-0 的生成质量已可与一些早期传统生成器相媲美,甚至在某些对比中表现更优,例如 NCSN、DCGAN-TTUR、WGAN-GP、BigGAN、iDDPM、Consistency Models 和 TRACT 等。然而,它仍然落后于后来的高性能传统模型,如 EDM 和 GDD。
换言之,Un-0 并非当前最强的图像生成模型,它更像是一个新计算路线的起点。其表现已接近多个经典生成模型首次提出时的水平,但要追赶传统路线的最新前沿,仍需在算法、架构和物理原语层面进行持续优化。
总体而言,Un-0 证明了利用物理动力学系统进行大规模现代 AI 图像生成的可能性。尽管目前在软件模拟下的性能尚未达到常规 AI 的顶峰,但它为未来实现千倍能效比的“非传统 AI 硬件”开辟了一条充满希望的道路。
Naveen Rao 强调,Un-0 的出现表明,“计算并非人类独有的发明。”它存在于自然界和物理世界的各个角落。所有物理实体的物理过程都包含时间维度,但当今的计算系统并未真正利用这一点。
“我们正在开发的就是这个时间维度。”
这与能效的关系在于,在现有的冯·诺依曼架构机器中,大部分能量消耗在内存与计算单元之间的信息传输上。而动力系统将计算和记忆融合在同一个实体中。更重要的是,动力系统能够容忍噪声,这为节省通信能耗提供了新的机会。
Un-0 代表着计算范式向动力系统转变迈出的重要第一步。“通过这次模型发布,我们正在将智能与动力学连接起来。”对于 AI 计算而言,动力学是一种天然的表达框架,神经网络本质上也可以看作是动力系统,因此两者之间的映射会更加直接。
“大脑中并没有线性代数这种抽象概念,所以某种意义上,我们是在绕过中间环节。”
在相关帖文下方,许多网友表达了期待。
“实际上,这种性能效率的提升非常巨大。如果这种技术能够得到广泛应用,那么很多在本地运行的应用程序都可能变得可行起来。”
“如果这种技术能够上市的话,那真是一项极其先进的脑科技啊。”
2条评论
布兰登·凯利
MK体育平台提供7x24小时不间断服务,无论何时何地,您都能获取所需的体育赛事信息和专业数据支持。