OpenAIの新しいo3モデル、AI推論テストで素晴らしいスコアを達成

Đăng bởi: deji • Ngày: 21/12/2024

OpenAIの新しいo3人工知能モデルは、評判の高いAI推論テスト「ARCチャレンジ」で画期的な高得点を達成しました。この成果を受けて、一部のAI愛好者はo3が人工一般知能（AGI）を達成したのではないかと推測しています。しかし、ARCチャレンジの主催者たちはこの達成を重要な節目と評価しつつも、o3が大会の最高賞を獲得しておらず、AGIへの道のりの一歩に過ぎないと警告しています。

o3モデルは、ChatGPTを支える大規模言語モデルに続く最新のAIリリースです。「これはAI能力の驚くべき飛躍であり、GPTファミリーのモデルでは見られなかった新しいタスク適応能力を示しています」と、ARCチャレンジの主要創作者であるフランソワ・ショレによるブログ投稿には記されています。

ARCチャレンジは、AIがカラーグリッドのペアを結びつける正しいパターンを見つける能力をテストするために2019年に設計されました。これらの視覚パズルは、基本的な推論能力を持つ一般的な知能の一形態を示すことを目的としています。

オープンAIによれば、o3モデルは2025年初頭にリリース予定であり、ARCチャレンジの公式得点は75.7パーセントで、これは公のリーダーボードでの競争相手のランキングに使用されます。この成果にかかった計算コストは各視覚パズルタスクあたり約20ドルで、合計で1万ドル未満と競技の制限を満たしていました。しかし、さらに難易度の高い「プライベート」テストでの最高賞受賞者を決定するための計算力制限は厳格で、一つのタスクあたり10セント以内でなければなりませんでした。

実際、o3モデルは非公式には87.5パーセントのスコアを達成しましたが、これは公式スコアの約172倍の計算力を使用した結果でした。一般的な人間のスコアは84パーセントであり、85パーセントのスコアを獲得すればARCチャレンジの60万ドルの最高賞を獲得可能ですが、o3は必要なコスト制限を満たせずにいました。

ARCチャレンジの主催者たちは、競争基準に打ち勝ったからといってAGIを達成したことを示すものではないと明言しています。また、o3は100以上の視覚パズルタスクを解決できなかったと報告されており、その多くは簡単に見えるものでした。

今後、ARCチャレンジの主催者たちは、2025年に第二回のより難易度の高い基準テストを実施する予定であり、最高賞を達成し、解答をオープンソース化するまでこのチャレンジを続ける考えです。