カリフォルニア大学サンディエゴ校のHao AI Labが、AIの性能を評価するためにスーパーマリオブラザーズを使用する試みを発表した。このプロジェクトでは、AnthropicのClaude 3.7が優れた性能を示し、次いでClaude 3.5が続く結果となった。一方、GoogleのGemini 1.5 ProおよびOpenAIのGPT-4oは期待されたほどの成果を収めることはできなかった。この実験では、オリジナルの1985年版とは異なるエミュレーター上でスーパーマリオが実行され、AIがゲームの操作を制御するためのフレームワーク「GamingAgent」と統合されている。 GamingAgentは、AIに「障害物や敵が近くにいる場合は、左に移動またはジャンプするように回避する」といった基本的な指示を与え、AIはゲーム内のスクリーンショットをもとにPythonコードで入力を生成した。 このプロジェクトの気づきの一つは、AIモデル間の性能差である。指示に従いながら問題解決を段階的に行う「推論モデル」が、リアルタイムゲームにおいては劣ることが分かった。特に、判断を下すまでに時間がかかるため、スピードが求められるゲーム世界においては不利になる。スーパーマリオのようなゲームでは、タイミングが全てで安全にジャンプをクリアできるか、墜落するかの分かれ道になる。 ゲームは長い間AIのベンチマークとして利用されてきたが、AIのゲームスキルが技術的な進歩を示す適切な指標かどうかには議論がある。現実世界と比較すると、ゲームは単純に見え、AIに訓練するための理論上無限のデータを提供するため、その相関関係には限界があると専門家は指摘している。最近の派手なゲームのベンチマークは、AIの進歩をどのように評価すべきかという「評価危機」を反映している。OpenAIで研究職にあるAndrej Karpathyは、「現在のAIモデルがどれほど優れているのかを正確に知るのは難しい」と述べている。 それでも、観客はAIがスーパーマリオをプレイする様子を楽しむことができる。 – AI, スーパーマリオ, ベンチマーク, GamingAgent, AIモデル
