产品理念 ← 返回博客

AIMA 是什么:一行命令,让硬件跑出接近上限的推理性能

AIMA 团队 7 分钟阅读

一台边缘 AI 设备,硬件成本两万块。可你要想让它把模型跑到这块芯片真正该有的性能,得请一个同时懂硬件、懂推理引擎、懂模型、懂应用的人。这样的人,月薪两万不算贵。

设备两万,照看它的人每月也两万。这账,怎么算都不平。

AIMA(灵机)就是来把这账算平的。一行命令装好,AIMA 让一个 AI agent 来做这件原本要专家才做得了的事:自动认出你的硬件、挑对推理引擎、把参数调到位,让模型尽量接近这块芯片的性能上限。这样一来,你不必再为每台设备专门配一个这样的专家,也不必自己先成为专家。本地优先,断网也能用,完全开源(Apache 2.0)。

把专家的活,交给 agent

同一块芯片,换一种推理方式、换一组并发配置,性能就能差出好几倍。想真正发挥一块芯片的本事,你得在硬件、引擎、模型、应用这四个维度上同时找到最优配置——而且只要动其中一个,其余三个的最优解就得跟着重算。这本来是一件需要资深工程师反复打磨的事,AIMA 把它交给了 agent,让没有专家在场的团队也能做到专家级的部署。

你只需要给一行命令:

aima deploy <model>

剩下的交给 agent:它自动识别你的硬件,在多种成熟的推理引擎之间挑出最合适的那个,跑 benchmark、反复调参,尽量把模型逼近这块硬件的性能上限。到今天,AIMA 已经在 8 个芯片生态上完成了端到端验证:NVIDIA、AMD、华为昇腾、海光、沐曦、摩尔线程、Apple、Intel——其中也包括英伟达 DGX Spark 所采用的 GB10 Grace Blackwell 超级芯片。它还内置了 61 个 MCP 工具,让 agent 可以用编程的方式去操控整套基础设施,而不是靠人在命令行里一条条敲。

趋境的完整解法:拼图三块

AIMA 只是一盘更大的棋里的第一块。趋境的完整解法,是三块拼在一起的拼图。

第 1 块,AIMA / 灵机,管理平台。 就是上面讲的这套:让 AI 来管理 AI 推理,把原本要专家才做得了的部署调优自动化,让你不必再为每台设备配一个这样的人。v0.4 已经交付,已经开源。

第 2 块,灵机云 / AIMA Server。 你可以把它理解成一位常驻云端的工程师。它通过设备身份接入你的每一台机器,在你授权的前提下远程帮你诊断故障、执行修复、升级和运维整个设备群——遇到重大变更,会先征得你确认再动手。你不用自己上云去搭什么,在 AIMA 里用着用着,就自然接上了它。一行命令就能把一台设备连上来:

curl -sL https://<对应区域域>/go | bash

国内部署使用 aimaserver.com,海外部署使用 aimaservice.ai。它背后是这样一个判断:在一张由 agent 互联起来的网络里,只要还有一个 agent 在线,它就能在你授权下去帮你处理其他机器。一台设备摸索出来的最优配置,可以同步给整个设备群里的同类设备;某台机器出了故障,网络里的其他节点能在授权下去诊断、执行修复。设备端 CLI 正在陆续开源。

第 3 块,趋境自研的高性能推理引擎。 这是最后拼上、也最难的一块。说到推理引擎优化,这正是趋境的起家本领——公司从第一天起就深耕于此,持续投入,积累了扎实的技术功底和工程经验,这也是趋境一贯的技术优势所在。这块自研引擎,就是这些年技术积累的集中兑现:我们想把易用、灵活和高性能合到同一个引擎里,既装得进边端设备,又能把硬件的性能充分发挥出来。目前它正在实验验证中,我们计划在性能数据完成复核后,再公开更多细节和实测结果——敬请期待。

三块拼到一起,目标是一个完整的体验:对用户,它开箱即用,一行命令就好,复杂的事都在背后;对硬件,让 agent 自动把配置逼近最优。

v0.4「Knowledge Autonomy」:部署得越多,调得越快

v0.4 这一版的主题叫知识自治,用一句话概括就是”部署得越多,调得越快”。这句话得先说清楚,免得你误会:

“越部署越快”指的是部署调优这层知识在自我积累,不是推理引擎本身在自我加速。

意思是,每一次在新硬件、新模型上部署,agent 跑出来的”哪套配置在这块芯片上最快”这条结论,都会被记录下来、用实测验证、再沉淀成一套可以反复复用的标准配置。下次再碰到同类场景,agent 直接调用这套验证过的配置,不用从头摸索。每一次沉淀都有质量门槛把关,没经过实测验证的”经验”不会被采纳。更关键的是,这套知识不会困在单台机器里:通过 Edge↔Central 的同步机制,一台设备学到的最优配置,整个设备群马上就能用上。

这套机制不是停在 PPT 上的概念。v0.4 这一版累计提交了 176 个 commit,Explorer Agent 完整跑通了 7 轮端到端闭环(从 2026 年 3 月到 4 月 17 日),也就是”观测、验证、沉淀、复用”这个循环,真真切切自动跑完过 7 次。MCP 工具从早期的 101 个精简整合到 61 个,底层支撑着 11 套硬件配置、32 个引擎配置、28 个模型配置。而整个东西,是一个 25 到 30MB 的单文件 Go 二进制,零 CGO 依赖。

现在就上手

# 1. 一行命令安装 AIMA
curl -fsSL https://raw.githubusercontent.com/Approaching-AI/AIMA/master/install.sh | sh
# 2. 部署一个模型,让 agent 自动帮你调优
aima deploy <model>
  • 想自己跑跑看:到 GitHub 仓库 Approaching-AI/AIMA,在你手头的硬件上装一个试试。
  • 想给项目出一份力:欢迎提交 issue 和 PR——尤其欢迎在我们还没覆盖到的硬件上验证、并把结果反馈给我们。
  • 企业部署或合作:如果你正在做私有化、边端 AI 的部署选型,欢迎直接联系我们的商务接口人关嘉伟(guanjiawei@approaching.ai);也可访问 aimaserver.com(国内)/ aimaservice.ai(海外)了解更多。

设备两万,不该被一个月薪两万的专家门槛挡在门外。让 agent 来做这件专家的活,让这笔账重新算得平——这就是 AIMA 想为边端 AI 做的事。