理念

两个极端，一个赌注

私有化大模型推理今天通常落在两个极端。图省事的方案装上就能用、默认参数就能跑，代价是吞吐被引擎天花板锁死。要性能的方案数字好看，但参数调优、量化选型、部署配置、跨厂商兼容问题全压在你身上，每换一片芯片基本等于重做一遍。这不是工具问题，是角色问题——操作员不该是你。

让 agent 来当那个操作员

AIMA 的核心回路：识别硬件，从 YAML 知识库挑引擎和配置，部署模型，跑 benchmark，把胜出配置写回。整个回路由内置的 agent（代号 Explorer）持续驱动。新芯片到手，它自己跑调优矩阵，不需要你介入。你装的是一个二进制，拿到的是一套会自己变快的推理栈。

这片芯片的最快跑法，写进 YAML，不在工程师脑子里

调优结果沉淀在 YAML 知识库里——可移交、可版本化、整个 fleet 都能共享。第一次部署是探索：agent 规划 benchmark、部署候选配置、采样吞吐和首字延迟，把跑赢的那套配置写进共享知识库。之后就是查表：同硬件同模型直接命中，不用重跑。换人接手也不用从头摸一遍。

Agent-native：AIMA 既是 MCP server，也在内部跑 agent

把任何支持 MCP 的程序指向 AIMA 的端口，就拿到完整操作面：查硬件、扫模型、选引擎、部署、跑 benchmark、发现集群、同步知识库。不用写 REST 包装层，也不用等什么官方 SDK。AIMA 自己也用 MCP——内置的 Explorer agent 通过它驱动整个自调优回路，这也是单个二进制能跑出高吞吐的原因。AIMA 已在生产里给 OpenClaw 当推理后端，覆盖大语言模型、语音、图像、视觉模型。

开源优先

AIMA 设备端在 Apache 2.0 下开源。安装脚本、配置逻辑、YAML 知识库，全部透明、可审计、可 fork。灵机云建在这个开源核心之上：把设备连上云，云端 agent 远程帮你装、诊、修、升级，Dify / ComfyUI / Open WebUI / OpenClaw 一键安装。命令里内置了邀请码，开箱即用，含 10 次免费服务。

在 GitHub 上看 AIMA 安装试试读一读：为什么是 AIMA？

有问题或合作意向？邮件联系 guanjiawei@approaching.ai