理念
两个极端,一个赌注
私有化大模型推理今天通常落在两个极端。图省事的方案装上就能用、默认参数就能跑,代价是吞吐被引擎天花板锁死。要性能的方案数字好看,但参数调优、量化选型、部署配置、跨厂商兼容问题全压在你身上,每换一片芯片基本等于重做一遍。这不是工具问题,是角色问题——操作员不该是你。
让 agent 来当那个操作员
AIMA 的核心回路:识别硬件,从 YAML 知识库挑引擎和配置,部署模型,跑 benchmark,把胜出配置写回。整个回路由内置的 agent(代号 Explorer)持续驱动。新芯片到手,它自己跑调优矩阵,不需要你介入。你装的是一个二进制,拿到的是一套会自己变快的推理栈。
这片芯片的最快跑法,写进 YAML,不在工程师脑子里
调优结果沉淀在 YAML 知识库里——可移交、可版本化、整个 fleet 都能共享。第一次部署是探索:agent 规划 benchmark、部署候选配置、采样吞吐和首字延迟,把跑赢的那套配置写进共享知识库。之后就是查表:同硬件同模型直接命中,不用重跑。换人接手也不用从头摸一遍。
Agent-native:AIMA 既是 MCP server,也在内部跑 agent
把任何支持 MCP 的程序指向 AIMA 的端口,就拿到完整操作面:查硬件、扫模型、选引擎、部署、跑 benchmark、发现集群、同步知识库。不用写 REST 包装层,也不用等什么官方 SDK。AIMA 自己也用 MCP——内置的 Explorer agent 通过它驱动整个自调优回路,这也是单个二进制能跑出高吞吐的原因。AIMA 已在生产里给 OpenClaw 当推理后端,覆盖大语言模型、语音、图像、视觉模型。
开源优先
AIMA 设备端在 Apache 2.0 下开源。安装脚本、配置逻辑、YAML 知识库,全部透明、可审计、可 fork。灵机云建在这个开源核心之上:把设备连上云,云端 agent 远程帮你装、诊、修、升级,Dify / ComfyUI / Open WebUI / OpenClaw 一键安装。命令里内置了邀请码,开箱即用,含 10 次免费服务。
有问题或合作意向? 邮件联系 guanjiawei@approaching.ai