deepseekの成功:中国の新興ai企業が米国の競合に対抗する
1月20日、中国のあまり知られていないAI研究所DeepSeekが、すぐにシリコンバレーで話題となっているオープンソースモデルを発表しました。この会社が発表した論文によれば、DeepSeek-R1は、数学や推論のベンチマークにおいて業界の主要モデルであるOpenAIのモデルを上回っているとのことです
1月20日、中国のあまり知られていないAI研究所DeepSeekが、すぐにシリコンバレーで話題となっているオープンソースモデルを発表しました。この会社が発表した論文によれば、DeepSeek-R1は、数学や推論のベンチマークにおいて業界の主要モデルであるOpenAIのモデルを上回っているとのことです。実際、能力、コスト、オープン性といった重要な指標において、DeepSeekは西洋のAI大手に対抗する存在となっています。
DeepSeekの成功は、米中の技術冷戦の思わぬ結果を示しています。米国の輸出規制は、中国企業が西洋の方法でAIに競争する能力を大きく制限しています。それは、無限にチップを購入し、より長くトレーニングを行うことです。その結果、中国の多くの企業は、独自のモデルを構築するのではなく、下流のアプリケーションに焦点を当てていました。しかし、DeepSeekの最近のリリースは、AIモデルの基盤構造を再構築し、限られたリソースをより効率的に利用することで勝つ方法があることを示しています。
「多くの中国のAI企業が先進的なハードウェアへのアクセスに依存しているのとは異なり、DeepSeekはソフトウェア駆動型のリソース最適化を最大化することに注力しています」と、シドニー工科大学のマリナ・ジャン教授は語ります。DeepSeekはオープンソース手法を採用し、集団の専門知識をプールし、協力的なイノベーションを促進しています。このアプローチは、リソースの制約を軽減するだけでなく、先進技術の開発を加速し、DeepSeekをより内向的な競争相手から際立たせています。
DeepSeekの背後には誰がいるのでしょうか?なぜ彼らは突然業界をリードするモデルを提供し、無料で公開しているのでしょうか?WIREDは、中国のAI業界の専門家たちにインタビューし、DeepSeekの創設者である梁文峰との詳細なインタビューを読んで、この企業の急成長の背後にある物語をまとめました。DeepSeekは、WIREDからのいくつかの問い合わせには応じませんでした。
DeepSeekは中国のAI業界の中でも珍しい存在です。もともとは中国で最も成功している定量的ヘッジファンドの一つであるHigh-Flyerのディープラーニング研究部門Fire-Flyerとして始まりました。2015年に設立されたヘッジファンドは、すぐに中国で有名になり、1000億元(約150億ドル)を超える資金を集めた初の量的ヘッジファンドとなりました。2021年以降、この数字は約800億元に減少しましたが、High-Flyerは依然として国の中で最も重要な量的ヘッジファンドの一つです。
数年間、High-FlyerはGPUを蓄積し、ファイナンシャルデータを分析するためのFire-Flyerスーパコンピュータを構築してきました。そして2023年、コンピュータサイエンスの修士号を持つ梁は、ファンドのリソースを新たな企業DeepSeekに注ぎ込み、最先端のモデルを構築し、最終的には人工一般知能の開発を目指しました。 それはまるで、科学研究に資金を投じるAIスタートアップになるかのようでした。
革新的なビジョンですが、実際には成功しました。 「DeepSeekは、中国のテクノロジー企業の新しい世代を代表しており、迅速な商業化よりも長期的な技術進歩を優先しています」とジャンは述べています。梁は、中国のテクノロジー出版物36Krに対し、企業設立の決定は利益を求めるものではなく、科学的好奇心に基づくものだと語ります。
「私がDeepSeekを設立する商業的な理由を見つけられるとは思わない」と彼は語りました。 「商業的にはその価値はありません。基本的な科学研究は投資収益率が非常に低い。OpenAIの初期投資家が資金を提供したとき、彼らはもちろん、どれだけのリターンを得られるかを考えてはいなかったはずです。むしろ、彼らは本当にこのことをしたいと思っていたのです。」
現在、DeepSeekはBaidu、Alibaba、ByteDanceのようなテックジャイアンとの資金提供を受けない数少ないリーディングAI企業の一つです。
梁によれば、DeepSeekの研究チームを編成する際、消費者向け製品を構築するための経験豊富なエンジニアを募集していたわけではありませんでした。 その代わりとして、彼は自分自身を証明したいと願う、北京大学や清華大学など中国のトップ大学の博士課程の学生に焦点を当てました。 彼らの多くは、トップジャーナルに掲載されたり、国際学会で賞を受賞したことがありますが、業界経験は不足していると、QBitAIは報じています。
「私たちのコア技術ポジションは、主に今年または過去1、2年の卒業生で占められています」と梁は2023年に36Krに語りました。この採用戦略により、彼らは独自の研究プロジェクトを追求するために十分な計算リソースを自由に使用できる協力的な企業文化を創り上げました。 これは、中国の確立されたインターネット企業とはまったく異なる運営方法です。
梁は、学生たちは利益と無関係に高投資の研究に取り組むのに適していると述べています。 「若い頃は、実利を考えずに完全に使命に捧げることができます」と彼は説明します。 彼は将来の採用者への提案として、DeepSeekは「世界の最も難しい問題を解決するために設立された」と強調しました。
これらの若手研究者がほぼ全員中国で教育を受けているという事実は、彼らの意欲をさらに高めています。 彼らは米国の制限や重要なハードウェアとソフトウェア技術のポイントでの詰まりこそ、彼らを駆り立てているとジャンは説明します。「彼らの意欲は、個人の野心だけでなく、中国のグローバルなイノベーションのリーダーとしての地位を高めることに対するより大きなコミットメントを反映しています。」
2022年10月、米国政府は、中国のAI企業がNvidiaのH100などの先端チップにアクセスすることを厳しく制限する輸出管理を始めました。この動きは、DeepSeekにとって問題を引き起こしました。
この企業は、10,000個のH100を在庫として保有するところからスタートしましたが、OpenAIやMetaの企業と競い合うためには、さらに多くが必要でした。「私たちが直面している問題は、資金提供ではなく、先進チップに対する輸出規制です」と梁は2024年に36Krに語りました。
DeepSeekはモデルをトレーニングするためのより効率的な方法を考え出さなければなりませんでした。「彼らは、エンジニアリングのトリックのバッテリーを使用してモデルアーキテクチャを最適化しました。チップ間のカスタム通信スキーマ、メモリを節約するためのフィールドのサイズを削減、モデルのミックスアプローチなどです。」と述べています。
DeepSeekはまた、Multi-head Latent Attention(MLA)とMixture-of-Expertsという二つの技術設計においても重要な進展を遂げており、これによりDeepSeekのモデルは少ない計算リソースでトレーニングできるため、コスト効果が高まっています。
実際、DeepSeekの最新のモデルは、Metaの比較対象となるLlama 3.1モデルをトレーニングするのに必要な計算パワーの10分の1で済んだとEpoch AIの調査機関は報告しています。
DeepSeekは、これらのイノベーションを一般に共有する意欲が、グローバルなAI研究コミュニティ内で大きな好意を得ています。多くの中国のAI企業にとって、オープンソースモデルを開発することは、米国の競合に追いつく唯一の方法であり、利用者や貢献者を集めることで、モデルの成長を促進しています。
彼らは、先端モデルがより少ない資金で構築できることを示し、モデル構築の現在のノルムには多くの最適化の余地があることを証明しています。
このニュースは、コンピューティングリソースのボトルネックを創造することに焦点を当てた現在の米国の輸出規制にとって問題をもたらす可能性があります。「中国が持つAIコンピューティングパワーの推定や、それを用いてどのような成果を上げられるかが、根本から崩れる可能性があります。」とchangは述べています。
