本文经AI润色处理
GAIA 测评
一、GAIA 是什么?
GAIA 全称是 “General AI Assistant”。它的目标不是只评估一个大语言模型(LLM)能不能写一段自然语言回答,而是评估它能不能像“智能助理”一样,去完成一项现实世界的小型任务。
从评估角度来说,GAIA更关注这些能力:
- 能否合理使用外部工具(检索、浏览器、OCR、文件解析、代码执行等)。
- 能否自己规划出一条可执行的解决路径,并按步骤推进。
- 能否基于真实世界的信息做出准确结论,而不是“瞎猜答案”。
GAIA 的题目来自真实任务场景,包含了 450+ 道“非琐碎且有唯一答案”的问题。很多题都不是纯文本 QA,而是需要访问真实网页、读取 PDF、Excel、截图、音频等外部资料,然后给出一个可验证的最终答案。
一句话总结:GAIA 想测的是“谁更像一个真正能干活的 AI 助理”,而不是“谁说话更像人类”。
二、GAIA 官方评测流程(标准版)
可以把 GAIA 的一次评测理解为这种流水线:
取题
- 从 GAIA 数据集中挑题。
- 题面可能带附件(PDF、图片、表格、JSON 等)。
- 每个题都被设计成:人类做起来是常规工作,但 AI 需要多步推理 + 工具协同,不能靠死记硬背。
零样例提示(zero-shot)
- 把题面原样给被测 Agent。
- 不给示例答案、不喂思路。
- GAIA 推荐使用统一的 system prompt,并要求最终以固定格式回答,比如:
FINAL ANSWER: <答案>
自由解题
- Agent 自由发挥,包括联网检索、爬网页、解析文件、OCR、跑代码、调用外部服务……
- GAIA 不强行规定“只能用哪些 API”。也就是说,测试环境尽量还原真实世界的开放性。
产出最终答案
- 只收最终答案这一行。
- 中间过程的推理内容、工具日志等,不参与主观评分。
自动比对
- 用程序把 Agent 的最终答案和标准答案做严格比对(字符串或数值规则)。
- GAIA 在设计题目时尽量让答案短、客观、唯一,方便自动化比对。
汇总评分
- 统计整套题里答对了多少道题,得到准确率(%)。
- 在公开对比中,人类的通过率可以达到 90%+,而某些强模型即便具备工具能力,整体正确率依旧明显偏低。这反映出:难度不在“语言表达”,而在“真实执行力”。
难度分级 / 榜单
- 题目分为 L1 / L2 / L3 三个等级。
- 数据集分公开部分和受控部分(验证集 vs 测试集),测试集的标准答案通常是受限下载的,避免刷榜。
- 社区会基于此做排行榜。
三、GAIA 的评测原则
GAIA 的原则可以被很多团队直接拿去作为“Agent 评估标准”的蓝本:
- 任务必须是真实世界任务
不是脑筋急转弯,而是现实工作里真的有人会做的事。 - 对人类直观,但对 AI 需要多步推理 / 工具协作
例如:查一份 PDF,提取出某个结论;或者读一份 Excel 聚合后排序出最小值。 - 每题要有一个客观、唯一、可验证的终态答案
避免开放式长篇争论题。要的是“我能自动判你对不对”。 - 不限制工具使用
Agent 可以自由调用外部工具。公平性通过“期望路径 / 等价路径 / 最短步数”来衡量,而不是限定方法。 - 禁止“赌运气”
Agent 必须真正完成信息获取和推理,而不是靠记忆库里碰巧背到答案。 - 尽量自动化打分
不依赖人工主观判断,提高可重复性和可规模化。 - 问题可扩展 / 可迁移
同一套题最好能跨模型、跨技术栈、跨基础设施形态去测,保证横向可比。
核心精神:“评估 AI 的执行力,而不是语文功底。”
四、难度分级体系(L1 / L2 / L3)
GAIA 把题目分成三层难度,差别主要在“要不要多工具协作”、“要不要自己规划”、“要不要跨模态信息整合”。
Level 1(基础任务)
- 特征:基本是单步或近似单步的任务,比如一次检索、一次查表、一次简单计算。
典型像:
- “请在某篇公开论文里找到某个实验装置的体积(单位:立方米)”。
- 解法往往是:搜到论文 → 打开 PDF → 找到那段 → 抄出数值。
- 这类任务对人类几乎是 Ctrl+F 的级别。
Level 2(中级任务)
- 特征:多步操作 + 多工具配合,往往要读附件(CSV/XLSX/PDF/截图)并做聚合或筛选。
示例类型:
- “给你一份全球城市空气质量的 CSV,请找出 2022 年全年 PM2.5 均值最低的城市。”
- 需要:读取文件 → 根据年份过滤 → 按城市求年均 → 排序 → 取最小者并输出城市名。
- 这类任务逼 AI 像“一个数据分析助理”。
Level 3(高级任务)
- 特征:开放式、跨来源、多模态、多跳推理,往往还包含信息整合和自主规划。
示例类型:
- “附件是一份 JSON-LD,里面是多位研究者的公开信息。请计算他们在 2020 年之前发表作品的平均数量是多少?”
- 需要:解析结构化 JSON → 统计每个人在截止时间点前的产出 → 再做平均。
- 这类任务更接近“专业研究助理 / 运营助理 / 技术支持工程师”的真实工作。
可以简单理解为:
- L1:能查能算。
- L2:能查 + 能读复杂文件 + 能统计分析。
- L3:能查 + 能读复杂文件 + 能跨信息源规划执行路径,像一个半自动同事。
五、题目涉及的能力画像
下面是对 GAIA 题目需求的结构化总结(按照公开信息抽象、简化后列出)。
行是难度级别,列是常见能力/工具需求的出现次数。
不同难度下题目用到的能力(出现次数示例)
| Level | 题目量 | CSV/表格 | JSON/JSON-LD | 图片(OCR/读图表) | Web/联网检索 | 计算/代码执行 | 音频转写 | |
|---|---|---|---|---|---|---|---|---|
| L1 | 53 | 3 | 2 | 0 | 3 | 27 | 10 | 2 |
| L2 | 86 | 10 | 9 | 0 | 19 | 71 | 28 | 1 |
| L3 | 26 | 5 | 5 | 1 | 6 | 25 | 11 | 0 |
观察点:
- 联网检索 / 网页读取 是压倒性主角,尤其在 L2/L3。
- 代码执行 / 计算沙盒 出现频率随着难度上升而显著提高,因为很多问题要求准确的统计/聚合,而不是“语言上模糊总结”。
- 多模态(图片/OCR/表格截图)理解 从 L2 开始变得很常规。
- 结构化数据处理(Excel、CSV、JSON、PDF 表格提取)是“日常需要”,而不是高级特性。
附件类型分布(带附件的题里常见的文件类型)
| Level | 带附件题数 | CSV | XLSX | JSON/JSON-LD | 图片 | 其它(音频/代码/压缩包等) | |
|---|---|---|---|---|---|---|---|
| L1 | 11 | 0 | 3 | 0 | 0 | 2 | 6 |
| L2 | 20 | 0 | 7 | 3 | 0 | 7 | 3 |
| L3 | 7 | 1 | 3 | 0 | 1 | 1 | 1 |
比较常见的附件后缀包括:
.xlsx,.csv(数据表).png,.jpg(截图、图表、扫描件).pdf(报告、清单、表格、目录).json,.jsonld(结构化元数据).mp3(音频转文字场景)- 以及
.docx、.pptx、.txt、.zip、.py等
从这些需求可以推导出:如果想在 GAIA 这种基准下表现得像“能上班的 AI”,一个 Agent 至少要具备:
联网检索 + 网页解析能力
- 不是只看标题,而是真正能提取网页正文、表格、列表里的信息。
文件解析能力
- 能读 CSV/XLSX 做聚合统计;
- 能从 PDF 里抽正文/表格;
- 能从截图/OCR 出文字或数值;
- 能正确解析 JSON / JSON-LD。
受控计算/代码执行能力
- 能在一个安全的环境里算平均数、比例、排序、聚合等,而不是“猜个大概”。
(可选但重要)多步执行/半自动化操作能力
- 在更复杂的题目里,Agent 需要像一个助理一样自己决定下一步要做什么,并坚持把任务办完。
六、标准化输出与评测流程(平台视角)
很多团队在自建内部评测平台时,会参考 GAIA 的思路来搭一条自动化管线。一个常见的通用流程大致如下:
遍历测评集
- 每道题包含题面、附件(可选)、难度等级、标准答案。
把题发给待测 Agent
- 题面+附件(附件通常会以可访问的 URL 形式提供给 Agent)。
在 system prompt 里明确回答格式要求,比如:
- “请最终只输出一行:
FINAL ANSWER: <答案>,不要解释过程。”
- “请最终只输出一行:
Agent 自主解题
- Agent 可以自由调用自己接的各种工具(网页抓取、OCR、表格解析、代码执行等)。
- 评测平台不强行指导,只记录过程和最终回答。
轮询 / 拉取最终回答
- 平台会不断查询会话,直到 Agent 声称“完成”。
归一化(Normalization)
对最终答案做标准化处理,以便可比对:
- 去除无关前缀、统一大小写/空白;
- 数字不允许带
$、%、千分位逗号等修饰; - 列表要保持顺序、定长;
- 最终必须是一行,形如:
FINAL ANSWER: 42
限制:
- 只能是数字、短字符串,或用逗号/分号分隔的有限列表;
- 不允许多余解释或附加语气;
- 如果是数字,不要混着单位符号;
- 如果是列表,顺序必须和标准答案一致。
自动比对
- 将归一化后的结果与标准答案进行严格匹配,避免人工打分。
汇总得分
- 报告整体正确率,作为该 Agent 的 GAIA-style 评分。
这条流程的核心价值是:可以持续、批量、统一地压测不同 Agent 或不同版本的同一 Agent,而不需要手工判卷。
七、落地路径(通用实施计划模板)
很多团队会用“两阶段法”把 GAIA 风格的评测慢慢带入内部研发过程。下面是一种常见的抽象节奏(非任何特定组织的路线图,仅作为通用建议):
阶段 1:基础能力闭环
目标:
- 先验证最基础的题型,比如 Level 1 里那些主要依赖“联网检索+基础阅读理解”的题。
Agent 侧:
- 优先接入:联网检索、网页正文提取、简单文本处理。
评测侧:
先做一个最小可用的评测脚手架:
- 题目投喂 → 最终回答抓取 → 自动匹配对错 → 出一个正确率。
产出:
- 第一版可量化指标(它到底能做成多少“人类一分钟能搞定的小事”)。
阶段 2:提升“像能上班的程度”
目标:
- 引入更多 Level 2 / Level 3 风格的任务:带附件的分析、跨模态信息的提取、简单的“先后两步操作”。
Agent 侧:
- 增强能力:表格解析(CSV/XLSX)、PDF 抽取、截图/OCR、结构化 JSON 解析、受控计算/统计。
评测侧:
- 支持对附件进行统一托管和 URL 化,自动传给 Agent;
- 支持记录/回放 Agent 的工具调用过程,用于后续分析。
产出:
- 可对外界说“这个 Agent 不只是会聊天,它已经能完成一些典型的办公/运维/研究类小任务”。
这种推进方式的优点:
- 可以渐进式衡量 Agent 的“实际可用性”,而不是一上来就要求它无所不能。
- 有利于把评测体系,逐步沉淀成类似“回归测试”,后面每次 Agent 升级都能重跑对比。
八、常见扩展指标(行业习惯做法)
在工程落地中,很多团队会在此基础上产出一些可运营的指标。这些指标是行业经验总结,非 GAIA 官方指标:
- 目标达成率
多少任务的全部断言都通过了。直观理解:Agent 真的把事办成了没。 - 路径效率
Agent 实际调用工具的次数 ÷optimal_plan_len。
值越接近 1,说明它不是乱尝试一堆无关操作,而是高效完成目标。 - 参数准确率
Agent 调用工具时传的参数是否符合工具的入参约束(字段名拼写正确、值的范围正确等)。
这是判断“它会不会用公司已有接口”的关键信号。 - 安全确认遵从率
对于高风险动作(例如开公网、删资源、付费操作等),Agent 是否按规范先进行确认,而不是直接执行。
很多团队会把这一条作为“能不能上生产”的硬性门槛。 - 执行耗时
任务完成所需时间,用于评估是否能在真实工作流中承担“准实时助手”的角色。
这些指标的共同点是——它们从“AI 答对没”升级到了“AI 是否可以放心托管真实工作流的一部分”。
九、总结
GAIA 的定位不只是“问答正确率排行榜”。它试图回答一个更接近落地层面的问题:
“如果我把一个真实、细碎但具体的工作任务交给 AI,它能不能像一个靠谱的小同事一样,把事情按步骤办完,并给出一个可以程序化验收的结果?”
从这个角度来看,要在 GAIA 这种基准下表现得像“能上班的 AI”,一个 Agent 至少应该:
- 能联网检索真实信息并正确读取网页内容;
- 能解析常见办公文件(Excel/CSV/PDF/截图/OCR/音频转写/JSON 等);
- 能在一个受控环境里做可靠的统计、聚合、查表、计算,而不是“模糊猜测”;
- 能把最终答案格式化成“一行明确结论”,方便自动打分;
- 最好还能让整个过程被回放、被审计,证明它确实按规范执行,而不是“嘴上说搞定了”。
进一步地,在很多团队的工程化实践当中,评测还会扩展到以下问题:
- 任务有没有真的完成(而不只是输出一句话)?
- 过程是不是高效,参数有没有乱传?
- 有没有在需要人工确认的场景里越权操作?
- 这些行为能不能被自动、重复地回归测试?
当这些都能回答“是”,AI 才真正从“会聊天”进化成“可以托付一部分真实工作流”。
这,才是 GAIA 这一类基准对行业最大的启发。

评论 (0)