AI画像生成 – デジタル未来 (Dejitaru Mirai)

MidJourney V7でテキストプロンプト処理が簡単に

deji — Thu, 10 Apr 2025 06:18:40 +0000

MidJourneyが新しいAI画像生成モデルであるV7を発表しました。この最新バージョンは、テキストプロンプトを以前よりも効果的に把握することができ、生成される画像がより高品質かつ一貫性を持っています。MidJourneyチームによると、V7は質感が改善され、手や体のような複雑なディテールのキャプチャが得意です。

新機能の中でも特に注目されるのは「ドラフトモード」です。この機能は、迅速なプロトタイピングをサポートし、画像を通常の半分の速度で生成でき、コストも半分で済みます。結果は洗練されていない可能性がありますが、アイデアをブレインストーミングするためには非常に有効です。ドラフトモードは音声プロンプトもサポートしており、手間なくアイデアを共有して発展させることが可能です。気に入ったアイデアには、「強化」や「多様化」をクリックすることで、高品質なAI生成バージョンを作成できます。

V7では、「ターボ」と「リラックス」の2つのレンダリングオプションが用意されています。ターボは迅速な画像生成を提供しますが、通常のレンダリングの倍の料金がかかります。一方、リラックスモードは費用対効果に優れていますが、結果が得られるまでに少し時間がかかります。通常速度のレンダリングはまだ利用できないため、今後改善されるのを期待する必要があります。

ただし、V7にはいくつかの制約も存在します。現在、アップスケーリングや編集、再テクスチャリング機能は使用できず、これらは従来のV6バージョンが担当します。さらに、V7はパーソナライズ重視で、約200枚の画像に対して評価を促します。これにより、AIはユーザーの美的好みを理解し、より合わせたビジュアルを作成できるようになります。このパーソナライズ機能は、MidJourneyウェブアプリで簡単にオンオフできます。

MidJourney V7は、AIクリエイティビティの分野で重要な進展を遂げていると思います。テキストプロンプトを効果的に把握し、良い結果を提供する能力、迅速なレンダリングオプションを考慮すると、これまでよりも多くのクリエイターにとって価値のあるツールとなるでしょう。ドラフトモードの追加は特に頼もしく、インスピレーションが湧いた際にアイデアを手軽に探求できる魔法のような機能です。もちろん、限界も残っており、アップスケーリングや編集ができないという点や、通常速度のレンダリングが未対応ということも理解する必要がありますが、これはまだアルファ版に過ぎないため、今後のアップデートを期待しましょう。

GPT-4o、ほぼ完璧なテキストで画像を生成

deji — Sat, 29 Mar 2025 04:45:44 +0000

最近、OpenAIのGPT-4oが大きなアップグレードを受け、テキストをほぼ完璧に描画した画像生成機能が実装されました。この新機能により、ユーザーは言語プロンプトから詳細で高品質な画像を生成し、自分の想像に合わせて会話形式で調整することができるようになりました。過去のAIモデルで見られた不可解なサインや文字ではなく、クリアなテキストを画像内で確保できる点が特徴です。GPT-4oのアプローチは、従来の画像生成と異なり、基本的なリクエストをもとに動的に進化させます。ユーザーは例えば「猫」という基本的なリクエストから始め、探偵帽やモノクルなどの要素を追加しながら自分の思い描くビジョンに近づけることができます。OpenAIが提供する例では、ユーザーがシーンを段階的に構築・修正する様子が示されており、複数の画像から要素を組み合わせて一本の連続した結果を作り出すことが可能です。特に、看板や物体上に視認性の高いテキストを描く能力は、これまでのAI画像生成モデルの雑音の多い出力に比べて大きな進歩をもたらしました。OpenAIは、一部の画像が「2作品中のベスト」や「8作品中のベスト」に選ばれていることを認めつつ、その結果は依然として印象的であり、シンプルなインターフェースでも使いやすい点が高く評価されています。GPT-4oは、ユーザーの写真からスタートし、変更を加えることも可能で、10から20のオブジェクトを扱う能力を持っていますが、競合モデルは通常5から8にとどまります。たとえば、最近『モンテ・クリスト伯』のエンディングシーンを再現してみたところ、従来の方法では非常に難しかったのですが、GPT-4oの画像生成を使うことで、生成された画像には読みやすいテキストが含まれ、想像を現実にするのが格段に容易になりました。もちろん、完璧ではなく、OpenAIは画像の下部がトリミングされる、幻想が残っている、非ラテン文字での苦労、20以上のオブジェクトを超える際の問題などの quirks があることも指摘しています。しかし、単純な英語によって複雑でテキストが豊富な画像を作り出す能力は、GPT-4oを他のツールと区別する要素となっています。ポスターをデザインする際、このツールは過去のモデルでは実現できなかった精度と柔軟性を提供するのです。

ChatGPTの新しい画像生成ツールは感動的な能力を持ち、グラスワインを満たせるが、白い画像やセクシーな女性を生成するのに苦労している

deji — Thu, 27 Mar 2025 01:45:06 +0000

OpenAIは最近、チャットインターフェースから直接画像を生成できる新機能をChatGPTに追加した。この機能は、従来のテキストベースの応答に加え、ユーザーが具体的な画像を作成または変換できる能力を提供する。新たに発表されたこの機能は、ユーザーがイメージに命を吹き込み、創造力を発揮する手助けをするものである。OpenAIのCEO、サム・アルトマン氏は、この技術の洗練度に驚きを隠せず、ユーザーが生成する作品は極めて素晴らしくなると述べている。

新しい画像生成機能は、すべてのFree、Plus、Team、およびProユーザーに段階的に提供されており、エンタープライズおよび教育ユーザーにも近いうちに広がる予定である。ユーザーはOpenAIのテキストから動画生成ツールであるSoraを通じても、画像生成機能を如実に体験できる。画像生成の機能は、GPT-4oモデルによって駆動されている。このモデルは、画像を生成する際により詳細で、正確な結果を提供するために計算量が増加している。

しかし、新機能にはいくつかの問題も抱えている。特に、簡単な白い画像を生成できないという制限が注目されている。AIツールはその柔軟性を欠き、ユーザーが創造的な結果を求めても、センサーリングの影響を受ける場面が多々見られる。実際、ユーザーからの報告では、AIが画像生成の際にセクシーな男性を描くことはできるが、同様の女性の画像を生成することに困難を抱えるケースが見受けられた。この差異は、コンテキストと画像がどのように解釈されるかに関連している。

この問題は重大ではないとOpenAIの代表者は述べており、近々修正される見込みである。ユーザーの反応は全体的に好意的であり、その技術の進化に期待を寄せる声が多い。OpenAIは、ユーザーの創造力をもっと自由に発揮させるため、このツールを更に発展させる計画を持っている。特に、クリエイティブな自由を尊重しつつ、社会が求める倫理基準にも耳を傾けるスタンスをとっている。

総じて、ChatGPTの新しい画像生成機能は、技術的な進化の象徴ともいえるもので、多くのユーザーにとって画期的な体験を提供するものとなっている。しかし、AIが人間の感情や感覚をいかに理解し、反映するかという課題は依然として残されており、今後の改善と発展が期待される。最終的に、ユーザーが求める理想的な画像を生成できるよう、さらなる進化が求められるだろう。

deepseekがオープンソースのai画像生成器を発表、アメリカの株式市場に衝撃

deji — Tue, 28 Jan 2025 12:31:58 +0000

中国のスタートアップDeepSeekが再び注目を集めています。月曜日の朝に、同社は新たなオープンソースのAIシステムを発表しました。これは画像生成器で、DeepSeekが主張するにはOpenAIのDALL-EやStability AIのStable Diffusionを凌駕する性能を持っているとのことです。新しいモデルJanus-Pro-7Bは、DeepSeekのGitHubページで公開された技術論文で発表されました。このモデルは、昨年10月にリリースされた簡素なモデルJanusのアップデートです。

Janus-Pro-7Bは画像生成と画像解析の両方を行うことが可能で、マルチモーダルオートメーションを新たなレベルへ引き上げることを約束しています。論文によれば、DeepSeekのモデルはさまざまなAIベンチマークにおいてDALL-EやStable Diffusionを上回っているとされています。

この新しいモデルの発表は、DeepSeekのR1モデルが今年12月にリリースされ、Apple App Storeでのダウンロード数でChatGPTを超えたとのニュースを受けて行われました。これは十分に驚くべきニュースですが、DeepSeekはさらに、オープンソースの「推論」モデルR1をわずか2か月で、600万ドルという少額の資金で作成したと主張しています。アメリカのトップAI企業であるOpenAIが1000億ドル以上の価値を持ち、閉鎖型の開発を行っている中で、これがなぜアメリカのテック界隈での動揺を引き起こしているのかが見えてきます。

DeepSeekが画像生成器を発表した同じ朝、同社が「大規模な悪質な攻撃」に直面していると報じられました。そのため、同社はユーザー登録を一時的に制限すると発表しましたが、既存のユーザーに影響はないとのことです。

DeepSeekの発表により、アメリカの株式市場には激震が走りました。アメリカはAI業界を中心に経済を構築しつつあり、ウォールストリートはこの技術を販売する企業に数十億ドルを投資してきました。最近では、トランプ政権が「Stargate」という5000億ドル規模のAIインフラ整備計画を発表し、全米にデータセンターを建設することを目指しています。このような技術を支えるテック企業群に流れ込む資本は非常に膨大です。にもかかわらず、資源が限られているように見える中国の企業が、同等の製品を短期間で開発し、数週間でモバイルダウンロードのトップに立ったことは、テック業界の人々にとって驚愕の事例です。

その結果、投資家はテック株を売り急ぎ、「ChatGPTの終焉だ」や「DeepSeekはベンチャーキャピタル企業にとって壊滅的な出来事かもしれない」という声が上がっています。ですが、OpenAIが直ちに終わるわけではありません。専門家たちは、DeepSeekの革新がアメリカのAI業界に対するコミットメントをさらに深める可能性があると予測しています。アメリカは常にあらゆる分野で最高でありたいと願っているため、AI軍拡競争で追い越されたことは、より一層の努力が必要だというプレッシャーを生むことになるでしょう。

このように、新しい競争が激化する中で、AI技術の未来を見据えた賢明な投資と戦略が求められています。DeepSeekの新しい開発は、AI業界におけるオープンソースの重要性を再認識させ、多くの企業がこの流れに追随する可能性があるでしょう。

Googleの新AI画像生成モデル「Imagen 3」がGeminiで利用可能に

deji — Sun, 13 Oct 2024 03:40:54 +0000

Googleは最新のAI画像生成モデル「Imagen 3」を、同社のAIチャットボット「Gemini」に統合しました。この新機能により、ユーザーはDALL-EのようにAIアシスタントを通じて画像を生成することが可能になります。ただし、注意が必要なのは、ユーザーが生成できるのは人物画像ではないという点です。人物画像の生成は、Geminiの「Advanced」機能においてのみ利用でき、こちらは先行アクセス制限の下で提供されています。Googleは Gemini Advanced の1か月間の無料トライアルを提供しており、その後は月額19.99ドルの料金がかかります。

「Imagen 3」は、8月にPetaPixelが報じた際には、DALL-EやMidjourneyなどのトップAI画像生成器と比較しても優れた性能を示すことが明らかになっています。そして、Imagen 3は他の競合と異なり無料で利用できる点が特徴です。このモデルは以前はGoogleのAI Test Kitchenサービスで限定提供されていましたが、Geminiへの移行により、さらに多くのユーザーが利用できるようになりました。

Googleは、Imagen 3について「このモデルは、私たちの最高品質のテキストから画像への生成モデルであり、以前のモデルよりも詳細や照明の豊かさ、障害物の少なさにおいて優れています」とコメントしています。また、Imagen 3のプロンプト理解能力が大幅に向上し、多様な視覚スタイルを生成し、長いプロンプトからの小さな詳細を捉えることにも成功しています。

ただし、Imagen 3のトレーニングデータに関する詳細はあまり知られていませんが、Googleは「Imagen 3モデルは、画像、テキスト、関連する注釈から成る大規模なデータセットで訓練された」と述べています。このデータセットには、多くの著作権で保護された写真が含まれていると考えられています。

さらに、Googleは一般的なインペインティング手法を使用して画像を編集するオプションを提供しています。この方法では、ユーザーが画像の一部を選択し、変更内容を入力することで、画像の編集が行えます。ただし、Elon MuskのGrokとは異なり、GoogleはImagen 3に対して制限を設けており、「カマラ・ハリスとドナルド・トランプが手をつないでいる画像」や「アンサル・アダムス風のカリフォルニアの風景」といった画像の生成は行えない状態です。しかし、回避策として、「1942年のワイオミング州グランド・ティトン国立公園のドラマチックな白黒写真を作成してほしい」と頼むことで、アンサル・アダムスの作品に似た印象の画像が生成されることが確認されています。

今年初め、GoogleはGeminiでのAI画像生成器がバイアスに対する過剰な補正を行い、実質的に「白人を消している」との批判を受け、AI画像生成器を完全に削除せざるを得なくなる事態が発生しました。

Imagen 3をGeminiで試すには、Geminiにアクセスしてください。