openaiが週内にコンピュータ操作エージェント「オペレーター」を発表か

Đăng bởi: deji • Ngày: 24/01/2025

openaiが今週中に発表するとされる「オペレーター」は、ユーザーの代わりにウェブブラウザ内でタスクを完了するコンピュータ操作エージェントです。この新たな技術の登場は、AIが人間の行う作業を効率化するという期待を持たれています。

「オペレーター」は、旅行や食事、イベントなどのカテゴリーに応じた提案をユーザーに行う機能を持つとされています。例えば、ニューヨークからマウイまでのフライトを探す際に、遅く到着しない便を見つける手助けを送ることが可能です。ただし、取引を完了することはなく、ユーザーはそのプロセスを自ら行う必要があります。

このようなエージェントが有用になる場面もいくつか考えられます。特にテクノロジーに不慣れな高齢者が「オペレーター」に手伝ってもらい、メールを送信する際にGmailを開くという流れを導いてもらうことができます。技術に精通した人々には必要ありませんが、ウェブサイトをナビゲートすることに苦労する高齢者には、大きな助けとなるでしょう。また、品質保証テストの分野でも効果を発揮する可能性があります。

しかし、コンピュータ操作エージェントにはリスクも伴います。過去には、自動化を利用してマーケティングスパムをRedditに投稿するウェブナビゲーションボットが紹介されました。このようなボットは、APIの制限をバイパスすることができるため、利用者が効果的に使用できるように対策が求められています。さもなければ、ウェブはさらに多くのスパムに溢れることになるかもしれません。

「オペレーター」はユーザーのブラウザのスクリーンショットを取得し、その画像をopenaiに送信することで機能します。必要な次のステップをモデルが分析し、指示がブラウザに送られ、適切なターゲットにマウスを移動させてクリックするか、入力フィールドにタイプします。これは、openaiなどが開発しているマルチモーダル技術を利用したもので、テキストと画像などの複数の入力形式を解釈することができます。

しかし「オペレーター」の実装には初期の制約が設けられているかもしれません。自律運転車の進化と同じように、単純なタスクの実行は容易でも、複雑なシナリオに対応するには相当な時間がかかるでしょう。openaiもまた、「オペレーター」の急激な普及を防ぐため、使用方法を制限する可能性もあります。

一方で、openaiはAGI（汎用人工知能）の実現に向けた目標を持っていますが、それは「少なくとも1000億ドルの利益を生み出すAIを作成すること」としています。2025年には120億ドルの収益を見込んでいるものの、依然として多くの赤字を抱えているのが現状です。最近の調査から、MicrosoftやGoogleが企業向けにAIツールを提供する際のニーズが予想よりも低かったことも明らかになっています。