玩《超级马力欧兄弟》的AI大比拼:Claude模型轻松过关,推理模型却遇挫折_体育直播
03-04 16:00
上周五,加利福尼亚大学圣地亚哥分校的Hao人工智能实验室展开了一项令人瞩目的研究,旨在将人工智能引入经典游戏《超级马力欧兄弟》,以测试不同AI模型的表现。这项实验中,最为出色的AI模型是Anthropic的Claude 3.7,紧随其后的是Claude 3.5。而谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o则相对逊色。
值得一提的是,研究所使用的并非1985年首次推出的《超级马力欧兄弟》。这款游戏在一个模拟器上运行,AI通过名为GamingAgent的框架与之互动,从而能够操控马力欧。GamingAgent是由Hao人工智能实验室自主研发的,它向AI提供基本的指令,比如“若周围有障碍物或敌人,需向左移动或跳跃以避开”,并还会提供游戏内的实时截图。之后,AI利用生成的Python代码来控制马力欧的动作。
根据实验室的解释,这个游戏环境要求 AI 模型学习如何制定复杂操作和策略。令人感到惊讶的是,像OpenAI的o1这样的推理模型表现不如那些“非推理”的模型。尽管在大多数基础测试中推理模型通常更为强劲,但在实时游戏环境中,它们却面临劣势。研究人员指出,这主要是因为推理模型在决定行动时需要几秒钟的时间,而在《超级马力欧兄弟》中,即便是短短一秒钟的延迟,可能就会导致安全通过和跌入深渊之间的巨大差异。
多年来,游戏一直被视为评估AI性能的重要工具。但一些专家对此表示质疑,他们认为将AI在游戏中的表现直接与技术进步关联并不科学。与复杂的现实世界相比,游戏本身往往是较为简单且抽象的,同时可以为AI训练提供理论上无限的数据。
IT之家注意到,最近一些引人注目的游戏基准测试结果引发了OpenAI研究科学家、创始成员安德烈·卡帕西的“评估危机”。他在X平台上分享了自己的困惑:“我实在搞不清楚现在应该关注哪些AI指标。”他总结说:“我的感觉是,我对这些模型的真实表现感到无从判断。”这一切让人对AI的发展和评估标准产生了深思。
电竞免费观看_电竞高清在线
推荐阅读
男子驾驶法拉利盗窃电竞民宿价值15万元物品 涉案总金额达21万元
2025-09-07 14:01:59
iG与BLG的二番战复仇之战揭示小丑亮点 B站录像观看量创历史第二新高
2025-09-06 18:04:51
2025KPL夏季赛宣传片 AG一诺分享对夏天的期待
2025-09-06 14:00:55
足球经理2026新预告发布 视觉效果有了显著提升
2025-09-05 20:05:56
Ti14精彩对决 水人帕克灵活应变假装打肉山反打成功 YB战队携手晋级1-1组
2025-09-05 02:06:08
Canyon谈中野配合的重要性以及对DWG豹女皮肤的喜爱
2025-09-04 12:04:41
迪士尼同意支付一千万美元与联邦贸易委员会达成和解,因涉嫌通过油管动画收集儿童数据
2025-09-03 16:03:34
定制版的笑话 谁在疯狂加强艾希和盖伦同时削弱芸阿娜
2025-09-03 10:03:07
LPL知名解说提到自2022年开始的内耗是Faker去年夺冠激励了自己
2025-09-02 14:03:38
LCK常规赛最佳阵容年末揭晓引发韩网热议 高考结束如同月考成绩迟迟未出
2025-09-01 20:03:48