グラフィカルアブストラクトの疑問②|山梨大学研究推進・社会連携機構

グラフィカルアブストラクトの疑問②

「どの画像生成AIを使えばいいのか?」

Copilot、ChatGPT、Gemini、Adobe Firefly、Canva、Midjourney…、
たくさんの画像生成AIが登場していますが、どれを使うか迷う方も多いのではないでしょうか。
その中でも、CopilotとChatGPTはどちらも同じ「DALL-E3」という画像生成モデルを搭載しています。
「同じモデルなら結果も同じ?」
…と思いきや、同じプロンプトで生成しても、まったく違うタイプの画像が出てくるのです。
なぜ違いが生まれるのか、詳しく調べてみました。

DALL-E3(ダリスリー)とは・・・
Open AIが開発した画像生成モデルで、テキストで入力した指示(プロンプト)をもとに、高精度な画像を作り出せるのが特徴です。

同じDALL-E3を使っているのに画像が違う理由

Y. Cho, et al., “A sustained calcium response mediated by IP3 receptor anchoring to the desmosome is essential for apoptotic cell elimination,” Curr. Biol. 34, 4835–4844 (2024).
Jun Lu, Hong Ju Jung, Ji-Young Kim, and Nicholas A. Kotov, “Bright, circularly polarized black-body radiation from twisted nanocarbon filaments, ”Science, Vol. 386, pp. 1400–1404, 2024.

この2つの画像はCopilotとChatGPT、それぞれに同じプロンプトを与えて生成しています。
(プロンプト:次の記述の主なポイントを視覚的に表現した画像を作成してください + 論文の英文Abstract)
画像を比べると違いが分かります。では、この差はどこから生まれてくるのでしょうか。

 

  1. プロンプトの解釈・処理の違い
    画像生成AIは、入力されたプロンプトの意味や意図を解釈し、それに基づいて画像を生成しています。しかし、プロンプトには曖昧な表現や複数の解釈が可能な言葉が含まれることも多く、AIがどのようにそれを補完・処理するかによって最終的にDALL-E3に送られる指示文が変わってくるのです。
    例えば、「青い空と森の中の動物」というプロンプトでも、どの動物を描くか、空の色や森の密度、雰囲気など、細かい部分で解釈に差が生まれます。このように同じプロンプトでもCopilotとChatGPTでは解釈の仕方が異なるため、生成される画像に違いが出るのです。

  2. 内部設定の違い
    画像生成AIは、画像を生成する際にさまざまな「内部設定」(生成パラメーター)を使用しています。中でもシード値(乱数の初期値)や多様性の調整パラメータなどは、出力される画像に大きく影響します。
    特にシード値は「画像のスタート地点」を決めるような役割を持っており、同じプロンプトでも、シード値が異なれば、生成される画像も大きく変わることがあります。
    これらの設定はユーザーからは見えず、操作もできないため、結果の違いに影響する”ブラックボックス的な要素”と考えられます。

  3. 利用環境・バージョン差
    画像の生成結果に影響するのは、モデル(DALL-E3など)だけではありません。
    例えば、CopilotやChatGPTのように、同じDALL-E3をAPI経由で利用しているサービスであっても、それぞれ独自のプロンプト処理や事前の調整(フィルタリングや再構成)を行っていることがあります。
    さらに、各サービスが利用しているモデルのバージョンやアップデートのタイミングが異なっていると目に見える違いが画像に現れるケースもあります。

  4. ランダム性の影響
    DALL-E3は画像を生成する際に、ある程度のランダムな要素を含めています。そのため同じプロンプトを使っても、毎回少しづつ異なる画像が作り出されるのが特徴です。このランダム性は多様な表現やバリエーションを生み出すために重要な役割を果たしていますが、一方で、完全に同じ画像を再現するのは難しくなります。
    つまり、同じモデル・同じプロンプトを使っても、微妙な違いが生まれるのはこのランダム性が原因のひとつと考えられます。

このように、CopilotとChatGPTでは”見えない初期設定”や処理環境の違いが複雑的に絡み合い、同じDALL-E3を使っていても異なる画像が生成されるのです。
だからこそ、画像生成AIを使うときは「モデルそのもの」だけでなく、「どう使われるか」も含めて見極める視点が重要になります。
この視点を持つことで、より目的に合った生成結果を引き出す工夫や、サービスごとの特性を活かした使い分けができるようになるでしょう。