Googleは最新のAI画像生成モデル「Imagen 3」を、同社のAIチャットボット「Gemini」に統合しました。この新機能により、ユーザーはDALL-EのようにAIアシスタントを通じて画像を生成することが可能になります。ただし、注意が必要なのは、ユーザーが生成できるのは人物画像ではないという点です。人物画像の生成は、Geminiの「Advanced」機能においてのみ利用でき、こちらは先行アクセス制限の下で提供されています。Googleは Gemini Advanced の1か月間の無料トライアルを提供しており、その後は月額19.99ドルの料金がかかります。
「Imagen 3」は、8月にPetaPixelが報じた際には、DALL-EやMidjourneyなどのトップAI画像生成器と比較しても優れた性能を示すことが明らかになっています。そして、Imagen 3は他の競合と異なり無料で利用できる点が特徴です。このモデルは以前はGoogleのAI Test Kitchenサービスで限定提供されていましたが、Geminiへの移行により、さらに多くのユーザーが利用できるようになりました。
Googleは、Imagen 3について「このモデルは、私たちの最高品質のテキストから画像への生成モデルであり、以前のモデルよりも詳細や照明の豊かさ、障害物の少なさにおいて優れています」とコメントしています。また、Imagen 3のプロンプト理解能力が大幅に向上し、多様な視覚スタイルを生成し、長いプロンプトからの小さな詳細を捉えることにも成功しています。
ただし、Imagen 3のトレーニングデータに関する詳細はあまり知られていませんが、Googleは「Imagen 3モデルは、画像、テキスト、関連する注釈から成る大規模なデータセットで訓練された」と述べています。このデータセットには、多くの著作権で保護された写真が含まれていると考えられています。
さらに、Googleは一般的なインペインティング手法を使用して画像を編集するオプションを提供しています。この方法では、ユーザーが画像の一部を選択し、変更内容を入力することで、画像の編集が行えます。ただし、Elon MuskのGrokとは異なり、GoogleはImagen 3に対して制限を設けており、「カマラ・ハリスとドナルド・トランプが手をつないでいる画像」や「アンサル・アダムス風のカリフォルニアの風景」といった画像の生成は行えない状態です。しかし、回避策として、「1942年のワイオミング州グランド・ティトン国立公園のドラマチックな白黒写真を作成してほしい」と頼むことで、アンサル・アダムスの作品に似た印象の画像が生成されることが確認されています。
今年初め、GoogleはGeminiでのAI画像生成器がバイアスに対する過剰な補正を行い、実質的に「白人を消している」との批判を受け、AI画像生成器を完全に削除せざるを得なくなる事態が発生しました。
Imagen 3をGeminiで試すには、Geminiにアクセスしてください。