AIMA 是什么：一行命令，让硬件跑出接近上限的推理性能

2026年6月3日AIMA 团队7 分钟阅读

一台边缘 AI 设备，硬件成本两万块。可你要想让它把模型跑到这块芯片真正该有的性能，得请一个同时懂硬件、懂推理引擎、懂模型、懂应用的人。这样的人，月薪两万不算贵。

设备两万，照看它的人每月也两万。这账，怎么算都不平。

AIMA（灵机）就是来把这账算平的。一行命令装好，AIMA 让一个 AI agent 来做这件原本要专家才做得了的事：自动认出你的硬件、挑对推理引擎、把参数调到位，让模型尽量接近这块芯片的性能上限。这样一来，你不必再为每台设备专门配一个这样的专家，也不必自己先成为专家。本地优先，断网也能用，完全开源（Apache 2.0）。

把专家的活，交给 agent

同一块芯片，换一种推理方式、换一组并发配置，性能就能差出好几倍。想真正发挥一块芯片的本事，你得在硬件、引擎、模型、应用这四个维度上同时找到最优配置——而且只要动其中一个，其余三个的最优解就得跟着重算。这本来是一件需要资深工程师反复打磨的事，AIMA 把它交给了 agent，让没有专家在场的团队也能做到专家级的部署。

你只需要给一行命令：

aima deploy <model>

剩下的交给 agent：它自动识别你的硬件，在多种成熟的推理引擎之间挑出最合适的那个，跑 benchmark、反复调参，尽量把模型逼近这块硬件的性能上限。到今天，AIMA 已经在 8 个芯片生态上完成了端到端验证：NVIDIA、AMD、华为昇腾、海光、沐曦、摩尔线程、Apple、Intel——其中也包括英伟达 DGX Spark 所采用的 GB10 Grace Blackwell 超级芯片。它还内置了 61 个 MCP 工具，让 agent 可以用编程的方式去操控整套基础设施，而不是靠人在命令行里一条条敲。

趋境的完整解法：拼图三块

AIMA 只是一盘更大的棋里的第一块。趋境的完整解法，是三块拼在一起的拼图。

第 1 块，AIMA / 灵机，管理平台。 就是上面讲的这套：让 AI 来管理 AI 推理，把原本要专家才做得了的部署调优自动化，让你不必再为每台设备配一个这样的人。v0.4 已经交付，已经开源。

第 2 块，灵机云 / AIMA Server。 你可以把它理解成一位常驻云端的工程师。它通过设备身份接入你的每一台机器，在你授权的前提下远程帮你诊断故障、执行修复、升级和运维整个设备群——遇到重大变更，会先征得你确认再动手。你不用自己上云去搭什么，在 AIMA 里用着用着，就自然接上了它。一行命令就能把一台设备连上来：

curl -sL https://<对应区域域名>/go | bash

国内部署使用 aimaserver.com，海外部署使用 aimaservice.ai。它背后是这样一个判断：在一张由 agent 互联起来的网络里，只要还有一个 agent 在线，它就能在你授权下去帮你处理其他机器。一台设备摸索出来的最优配置，可以同步给整个设备群里的同类设备；某台机器出了故障，网络里的其他节点能在授权下去诊断、执行修复。设备端 CLI 正在陆续开源。

第 3 块，趋境自研的高性能推理引擎。 这是最后拼上、也最难的一块。说到推理引擎优化，这正是趋境的起家本领——公司从第一天起就深耕于此，持续投入，积累了扎实的技术功底和工程经验，这也是趋境一贯的技术优势所在。这块自研引擎，就是这些年技术积累的集中兑现：我们想把易用、灵活和高性能合到同一个引擎里，既装得进边端设备，又能把硬件的性能充分发挥出来。目前它正在实验验证中，我们计划在性能数据完成复核后，再公开更多细节和实测结果——敬请期待。

三块拼到一起，目标是一个完整的体验：对用户，它开箱即用，一行命令就好，复杂的事都在背后；对硬件，让 agent 自动把配置逼近最优。

v0.4「Knowledge Autonomy」：部署得越多，调得越快

v0.4 这一版的主题叫知识自治，用一句话概括就是“部署得越多，调得越快”。这句话得先说清楚，免得你误会：

“越部署越快”指的是部署调优这层知识在自我积累，不是推理引擎本身在自我加速。

意思是，每一次在新硬件、新模型上部署，agent 跑出来的“哪套配置在这块芯片上最快”这条结论，都会被记录下来、用实测验证、再沉淀成一套可以反复复用的标准配置。下次再碰到同类场景，agent 直接调用这套验证过的配置，不用从头摸索。每一次沉淀都有质量门槛把关，没经过实测验证的“经验”不会被采纳。更关键的是，这套知识不会困在单台机器里：通过 Edge↔Central 的同步机制，一台设备学到的最优配置，整个设备群马上就能用上。

这套机制不是停在 PPT 上的概念。v0.4 这一版累计提交了 176 个 commit，Explorer Agent 完整跑通了 7 轮端到端闭环（从 2026 年 3 月到 4 月 17 日），也就是“观测、验证、沉淀、复用”这个循环，真真切切自动跑完过 7 次。MCP 工具从早期的 101 个精简整合到 61 个，底层支撑着 11 套硬件配置、32 个引擎配置、28 个模型配置。而整个东西，是一个 25 到 30MB 的单文件 Go 二进制，零 CGO 依赖。

现在就上手

# 1. 一行命令安装 AIMA
curl -fsSL https://raw.githubusercontent.com/Approaching-AI/AIMA/master/install.sh | sh
# 2. 部署一个模型，让 agent 自动帮你调优
aima deploy <model>

想自己跑跑看：到 GitHub 仓库 Approaching-AI/AIMA，在你手头的硬件上装一个试试。
想给项目出一份力：欢迎提交 issue 和 PR——尤其欢迎在我们还没覆盖到的硬件上验证、并把结果反馈给我们。
企业部署或合作：如果你正在做私有化、边端 AI 的部署选型，欢迎直接联系我们的商务接口人关嘉伟（guanjiawei@approaching.ai）；也可访问 aimaserver.com（国内）/ aimaservice.ai（海外）了解更多。

设备两万，不该被一个月薪两万的专家门槛挡在门外。让 agent 来做这件专家的活，让这笔账重新算得平——这就是 AIMA 想为边端 AI 做的事。