GPT-4o、ほぼ完璧なテキストで画像を生成

deji — Sat, 29 Mar 2025 04:45:44 +0000

最近、OpenAIのGPT-4oが大きなアップグレードを受け、テキストをほぼ完璧に描画した画像生成機能が実装されました。この新機能により、ユーザーは言語プロンプトから詳細で高品質な画像を生成し、自分の想像に合わせて会話形式で調整することができるようになりました。過去のAIモデルで見られた不可解なサインや文字ではなく、クリアなテキストを画像内で確保できる点が特徴です。GPT-4oのアプローチは、従来の画像生成と異なり、基本的なリクエストをもとに動的に進化させます。ユーザーは例えば「猫」という基本的なリクエストから始め、探偵帽やモノクルなどの要素を追加しながら自分の思い描くビジョンに近づけることができます。OpenAIが提供する例では、ユーザーがシーンを段階的に構築・修正する様子が示されており、複数の画像から要素を組み合わせて一本の連続した結果を作り出すことが可能です。特に、看板や物体上に視認性の高いテキストを描く能力は、これまでのAI画像生成モデルの雑音の多い出力に比べて大きな進歩をもたらしました。OpenAIは、一部の画像が「2作品中のベスト」や「8作品中のベスト」に選ばれていることを認めつつ、その結果は依然として印象的であり、シンプルなインターフェースでも使いやすい点が高く評価されています。GPT-4oは、ユーザーの写真からスタートし、変更を加えることも可能で、10から20のオブジェクトを扱う能力を持っていますが、競合モデルは通常5から8にとどまります。たとえば、最近『モンテ・クリスト伯』のエンディングシーンを再現してみたところ、従来の方法では非常に難しかったのですが、GPT-4oの画像生成を使うことで、生成された画像には読みやすいテキストが含まれ、想像を現実にするのが格段に容易になりました。もちろん、完璧ではなく、OpenAIは画像の下部がトリミングされる、幻想が残っている、非ラテン文字での苦労、20以上のオブジェクトを超える際の問題などの quirks があることも指摘しています。しかし、単純な英語によって複雑でテキストが豊富な画像を作り出す能力は、GPT-4oを他のツールと区別する要素となっています。ポスターをデザインする際、このツールは過去のモデルでは実現できなかった精度と柔軟性を提供するのです。

テキスト描画 – デジタル未来 (Dejitaru Mirai)

GPT-4o、ほぼ完璧なテキストで画像を生成