スーパーマリオを使ってAIのベンチマークを行う

deji — Tue, 04 Mar 2025 01:21:51 +0000

カリフォルニア大学サンディエゴ校のHao AI Labが、AIの性能を評価するためにスーパーマリオブラザーズを使用する試みを発表した。このプロジェクトでは、AnthropicのClaude 3.7が優れた性能を示し、次いでClaude 3.5が続く結果となった。一方、GoogleのGemini 1.5 ProおよびOpenAIのGPT-4oは期待されたほどの成果を収めることはできなかった。この実験では、オリジナルの1985年版とは異なるエミュレーター上でスーパーマリオが実行され、AIがゲームの操作を制御するためのフレームワーク「GamingAgent」と統合されている。 GamingAgentは、AIに「障害物や敵が近くにいる場合は、左に移動またはジャンプするように回避する」といった基本的な指示を与え、AIはゲーム内のスクリーンショットをもとにPythonコードで入力を生成した。このプロジェクトの気づきの一つは、AIモデル間の性能差である。指示に従いながら問題解決を段階的に行う「推論モデル」が、リアルタイムゲームにおいては劣ることが分かった。特に、判断を下すまでに時間がかかるため、スピードが求められるゲーム世界においては不利になる。スーパーマリオのようなゲームでは、タイミングが全てで安全にジャンプをクリアできるか、墜落するかの分かれ道になる。ゲームは長い間AIのベンチマークとして利用されてきたが、AIのゲームスキルが技術的な進歩を示す適切な指標かどうかには議論がある。現実世界と比較すると、ゲームは単純に見え、AIに訓練するための理論上無限のデータを提供するため、その相関関係には限界があると専門家は指摘している。最近の派手なゲームのベンチマークは、AIの進歩をどのように評価すべきかという「評価危機」を反映している。OpenAIで研究職にあるAndrej Karpathyは、「現在のAIモデルがどれほど優れているのかを正確に知るのは難しい」と述べている。それでも、観客はAIがスーパーマリオをプレイする様子を楽しむことができる。 – AI, スーパーマリオ, ベンチマーク, GamingAgent, AIモデル

Claude 3.7 Sonnetが発表、複雑な問題に取り組む「拡張思考」を搭載

deji — Tue, 25 Feb 2025 03:18:05 +0000

2025年2月24日、Anthropicが新たなAI言語モデル「Claude 3.7 Sonnet」を発表した。このモデルは、段階を追った問題解決を実現する「拡張思考」というシミュレーション推論(SR)機能を搭載している。デベロッパー向けには「Claude Code」という命令ラインAIエージェントも発表されている。

Claude 3.7 Sonnetは市場初の「ハイブリッド推論モデル」と銘打たれており、ユーザーは応答の迅速さと、オープンAIのモデルに類似した詳細な思考過程を選択できる。モデルをAPIで使用する際は、最大128,000トークンの出力制限内で、思考に使用するトークン数を指定することが可能だ。

新モデルの提供はすべてのClaudeサブスクリプションプランで利用可能だが、拡張思考モードは無料プランを除く全プランで利用できる。API料金は変更されておらず、入力トークンは100万トークンあたり3ドル、出力トークンは100万トークンあたり15ドル。思考トークンは、モデルが考慮するコンテキストの一部として出力料金に含まれている。

3.5 Sonnetからの改善点として、3.7 Sonnetは不要な拒否を45%削減したとされ、ユーザーの要求に対してより協力的な姿勢を見せている。新しいモデルは、特にコーディングタスクにおいて卓越した性能を示しており、SWE-bench Verifiedでは最高スコアを獲得、TAU-benchでも高いパフォーマンスを記録している。

更に、Claude 3.7 Sonnetは、すべてのClaudeプランにおいてGitHubとの統合を拡張しており、開発者はコードリポジトリをClaudeに直接接続し、バグ修正や機能開発を行えるようになっている。過去6か月において、3.5 Sonnetを使用してプロトタイピングを行った経験では、充実した支持が得られたが、使用制限に直面することが多かったため、3.7 Sonnetへの移行は期待される。

Anthropicは、コードベースを検索し、ファイルを読み書きし、テストを実行し、GitHubリポジトリへとコミット・プッシュすることができる自律型コーディングアシスタント「Claude Code」をも発表した。現在、「限定研究プレビュー」として利用されているが、ユーザーからのフィードバックに基づいて時間とともに改善する予定である。3.7 SonnetはClaudeのウェブサイトやアプリを通じて提供され、Amazon BedrockやGoogle CloudのVertex AIでも利用可能だ。こうした進歩は、デベロッパーに対するAnthropicのアプローチを強化し、新しいAIツールの可能性を広げるものである。

Claude 3.7 – デジタル未来 (Dejitaru Mirai)

スーパーマリオを使ってAIのベンチマークを行う

Claude 3.7 Sonnetが発表、複雑な問題に取り組む「拡張思考」を搭載