工业智能算网

AI技术AI技术

2026-03-31

ARC-AGI-3：人类100%满分，而GPT-5、Claude、Grok却集体"翻车"？

2026年3月25日，ARC Prize基金会推出的ARC-AGI-3基准测试在AI圈掀起轩然大波。GPT-5仅得0.26%、Claude 0.25%、Grok直接0%，而普通人类测试者却拿到了100%满分。这是史上首个真正交互式的代理智能基准，直指当前前沿大模型的核心痛点。

AI技术AI技术

2026-02-17

给AI的一份"避坑指南"：SkillsBench揭秘为何大模型依然需要人类传授"经验"

如果把大语言模型（LLM）比作一个拥有博学知识但缺乏社会经验的"天才毕业生"，那么现在的AI智能体（Agent）正处于从"只会动嘴"向"实际干活"转型的关键期。近日，一份来自BenchFlow团队及其合作机构的重磅研究报告《SkillsBench》正式发布。这篇论文不仅构建了目前最系统的AI智能体"技能"评估体系，更

标签: 基准测试

ARC-AGI-3：人类100%满分，而GPT-5、Claude、Grok却集体"翻车"？

给AI的一份"避坑指南"：SkillsBench揭秘为何大模型依然需要人类传授"经验"