Researchers created an open rival to OpenAI’s o1 ‘reasoning’ model for under $50

Đăng bởi: deji • Ngày: 06/02/2025

AI研究者たちがスタンフォード大学とワシントン大学から、わずか50ドル未満のクラウドコンピュートクレジットで、AIの「推論」モデルを訓練することに成功しました。新たに発表された研究論文によると、このモデル「s1」は、数学やコーディング能力を測定するテストにおいて、OpenAIのo1やDeepSeekのR1と同等の性能を発揮します。s1はGitHubで入手可能で、訓練に使用されたデータおよびコードも公開されています。

このプロジェクトの背後にあるチームは、既存の基本モデルからスタートし、ほかのAIモデルの解答を学習することで「推論」能力を引き出す蒸留処理を通じて微調整を行いました。s1は、Googleの推論モデル「Gemini 2.0 Flash Thinking Experimental」から蒸留されたものであり、この手法は先月、450ドルでAI推論モデルを創出したバークレー大学の研究者たちと同じアプローチです。

数百万円の資金を持たない研究者たちがAI分野で革新を続ける姿には興奮を覚える人も多いですが、s1はAIモデルのコモディティ化についても現実的な疑問を投げかけています。一体、数ドルのコストで数百万ドルのモデルを近似できるなら、競争優位性はどこにあるのでしょうか。

当然、大手AIラボは不満を抱いています。OpenAIは、DeepSeekがAPIから不正にデータを収集したとして非難しています。s1の研究者たちは、強力な推論性能を得るためのシンプルなアプローチを探求し、AIモデルが問いに答える前に考える時間を増やす「テスト時スケーリング」も実現しました。このアプローチは様々な技術を通じてDeepSeekや他のAIラボが試みたことであり、s1の研究論文は、比較的少ないデータセットで推論モデルを蒸留できることを示唆しています。

具体的には、AIモデルがデータセット内で特定の行動を模倣するよう指導する「監督付きファインチューニング（SFT）」というプロセスを活用しました。SFTは、DeepSeekがOpenAIのo1モデルに対抗するR1を育てるために採用した大規模強化学習法よりも安価です。Googleも、1日の利用制限はあるものの、Gemini 2.0 Flash Thinking Experimentalに自由にアクセスできることを提供しています。

ただし、Googleの利用規約は、同社のAI製品に競合するサービスを開発するために、自社のモデルを逆工学することを禁じています。本稿ではGoogleへのコメントを求めています。

s1は、Alibabaが所有する中国のAIラボQwenの小型でオフ・ザ・シェルフのAIモデルを基にしており、無料でダウンロードが可能です。研究者たちは1,000の厳選された質問に対する回答および各回答の「思考」プロセスをペアリングしたデータセットを作成し、これを用いてs1を訓練しました。

訓練は16台のNvidia H100 GPUを使用して30分未満で行われ、特定のAIベンチマークで強力な性能を発揮しています。スタンフォードの研究者Niklas Muennighoffは、今日必要な計算リソースを約20ドルでレンタルできるとTechCrunchに語っています。s1は自らの作業を二重確認し思考時間を延長するための巧妙なトリックを用いており、推論過程で「待ってください」と指示することで、やや正確な回答を引き出すことができました。

2025年にはMeta、Google、およびMicrosoftがAIインフラへ数千億ドルの投資を計画しており、その一部は次世代AIモデルの訓練に使われます。こうした巨大投資がAI革新の飛躍を進めるためには依然として必要でしょう。蒸留技術は既存のAIモデルの能力を安価に再現するのに適していますが、それを上回る新たなAIモデルを生み出すには不十分であることが明らかになっています。