
大模型被普遍视为重塑未来战争形态的核心力量,其在作战指挥、情报分析与火力打击等方面巨大应用潜力已成全球共识。但等先天缺陷共生存在,一旦进入指挥链路,错误将指数级放大,其引起后果将是灾难性的。美军已将大模型测试评估能力提升至战略高度,
报告专门聚焦美军大模型测试评估体系,深入分析其基本认识、政策制度、组织管理、测试标准、工具合集以及理念创新等方面的发展现状,分析2024以来国防部、陆军等单位牵头开展的Scale AI大模型测试评估框架、Calibrate生成式AI采办评估试点、AIQ能力度量基准、Enterprise LLM Workspace平台以及SABER战场AI红队评估等典型项目,在以上基础上研判美军大模型测试评估的发展趋势,并提出加快构建我军大模型测试评估能力体系的建议思考。