DALL-E 3のプロンプト作成ガイド：書き方のコツと具体的なプロンプト例

2024年5月22日2024年9月7日

はじめに

　今回は、DALL-E 3のプロンプトの書き方について説明します。私はChatGPT 4(ChatGPT 4o)を使って画像生成していますので、よく使っているやり方について分かりやすく説明したいと思います。

そもそもプロンプトは必要ない？

　まず身も蓋もないことを言ってしまえば、それほど厳密なプロンプトがなくとも、ある程度のクォリティの画像を生成することが出来ます。ChatGPT 4 + DALL-E 3のテキスト解釈能力と画像での再現度はかなり高いですので、大雑把にChatGPT 4に日本語で指示するだけで良い感じの画像を作成してくれます。

　簡単な例を挙げて説明します。ChatGPT 4に「アニメ風イラスト。女性。金髪ショート。ブラウス。背景は夕方の街。」と入れると、生成されるのが下記画像になります。

　このように雑な指示であっても、指示を踏まえた上で、高品質な画像を得ることが出来ます。そのため、自分の中で具体的な画像の詳細を持っていないのであれば、このような指示内容でのプロンプトで十分です（私はこれを「適当プロンプト」と勝手に呼んでいます）。

　また、多少イメージが異なっていた場合は、この「適当プロンプト」に追加・修正することになります。例えば、もっと全体的に柔らかい雰囲気の画像にしたい場合は、「パステル調」などと追記すれば、下記の通り、ある程度意図に沿った画像生成が可能です。

　一方で、上記のような「適当プロンプト」をまず試してみても中々思った通りの画像にならない場合や、あらかじめ明確かつ具体性の高いアウトプットのイメージを持っている場合は、きちんと明確な指示を出す必要があります。そのためには、DALL-E 3において、どういう設定が可能なのか、どういうパラメータを有しているのか理解する必要があります。

　そこで、以降はDALL-E3における主要な設定パラメータについての説明を、プロンプトと画像例を交えながら説明したいと思います。

主要なパラメータの設定

　それではまず、DALL-E 3における基本的なパラメータについてそれぞれ説明していきます。

プロンプト (Prompt)
シード値 (Seed)
生成ID (Generation ID)
画像サイズ (Size)
アスペクト比 (Aspect Ratio)
画像の数 (Number of images)

プロンプト (Prompt)

　プロンプトは、生成される画像がどんな内容かをテキストで指定する部分になります。具体的かつ詳細なプロンプトを用意することで、希望する画像に近づけることが出来ます。プロンプトの記載の仕方については下記の通りとなります。

具体例：
・”Create an image of a tranquil lake surrounded by tall pine trees during sunset.”
・prompt:Create an image of a tranquil lake surrounded by tall pine trees during sunset.
・{ “prompt”: Create an image of a tranquil lake surrounded by tall pine trees during sunset.}

このプロンプトで生成された画像。
プロンプト中の「静かな湖、周囲の高い松の木、夕焼け」といった具体的な要素を再現しています。

シード値 (Seed)

　シード値は、画像生成の際に使われるランダムな数値のことです。同じシード値を用いれば、その画像のスタイルや角度だったりが同じようになります。つまり、類似画像の再生成だったり、意図的にシード値だけ変更して雰囲気を変えることが可能です。

　シード値でできることとその限界は下記にまとめています。

生成ID (Generation ID)

　生成された画像に割り当てられる識別子のことです。画像のタイトルのようなイメージです。生成IDを使用することで、特定の画像に対して再生成や参照を行うことができます。これもシード値と同じように、類似画像の生成だったり、元画像を参照しての修正に使います。

画像サイズ

　画像サイズは、生成される画像の解像度を指定します。用途に応じて適切なサイズを選ぶことが重要です。像の使用目的（例：ブログのサムネイル、アイコン、バナーなど）に応じてサイズを選択することになります。

サイズの例：
・1024×1024 (スクエア)
・1792×1024 (ワイド)
・1024×1792 (フルボディ)

アスペクト比 (Aspect Ratio)

　生成する画像の縦横比を指定するパラメータです。基本的なアスペクトとしては、1:1 (スクエア)、16:9 (ワイド)、9:16 (縦長)。ブログのアイキャッチは16:9が多く使われます。

画像の数

　一度に生成する画像の枚数を指定します。n:1などと記載することになります。以前はこれが機能していたようですが、現在はこの数値をいじっても基本的に1枚しか生成されません。

各パラメータの指定例

　ここまでに出てきた各パラメータの指示の仕方を、一例として下記の通りまとめました。

プロンプト (Prompt): “An anime-style illustration of a woman with short blonde hair, wearing a blouse. The background is a cityscape during sunset, rendered in pastel colors. The sky is soft with hues of pink, orange, and lavender, and the buildings are bathed in a gentle, warm light. The character’s hair is styled in a cute, slightly messy manner, and the blouse is simple yet elegant, fitting her youthful and lively appearance. The overall atmosphere is calm and serene, with the pastel palette adding a dreamlike quality to the scene.”
シード値 (Seed): 1886330884
生成ID (Generation ID): DAmVj4wDU4pOcaTI
サイズ (Size): 1024×1024
アスペクト比 (Aspect Ratio): 1:1
画像数 (Number of images): 1

この画像のデータが上記。

スタイル・カラーパレット・その他の設定

　ここまでがDALL-E 3における基本的な設定パラメータでした。以降は、プロンプト中に組み込んで、詳細を指示するための設定について説明します。DALL-E 3では、特に生成される画像のスタイルや色彩をカスタマイズすることができ、画像全体の雰囲気や印象を大きく変えることが可能になっています。

スタイル
カラーパレット
その他詳細な設定

スタイル

　スタイルを指定することで、特定のアーティスティックな表現を反映させることができます。印象派、キュビズム、リアリスティックなど、様々なスタイルを指定できるため、元プロンプトが同じであっても、大きく印象を変えることが可能です。

例：　”Create an impressionist style painting of a bustling market.”　

　スタイルを具体的にどう変更したら、どう変わるのかは下記でまとめています。

カラーパレット

　カラーパレットを指定することで、画像の色合いや雰囲気を調整できます。上手く活用することによって、複数の画像の雰囲気に統一感を持たせることができます。

例:”Generate an image of a calm beach scene using pastel colors.”

　このプロンプトでは、「パステルカラー」というカラーパレットを指定しています。画像全体が柔らかい色調となり、落ち着いた雰囲気が表現されます。

その他詳細な設定

　最後に、生成される画像の特定の部分を、細かくプロンプトに入れていくための切り口を説明します。これらを意識してプロンプトを作成することによって、画像の完成度をさらに高めることができます。

キャラクターの表情やポーズ

　オーソドックスですが、キャラクターの表情やポーズを具体的に指定することによって、より豊かな表現を持たせることができます。

例:”Create an image of a happy child jumping with joy.”

　このプロンプトは、「喜びでジャンプしている幸せな子供」という具体的な動作と表情を指定しています。

服装やアクセサリー

　キャラクターの服装や身に着けているアクセサリーの指定により、細かなディテールを追加できます。

例:”Generate an image of a young woman in a red dress, wearing a pearl necklace.”

　このプロンプトは、「赤いドレスを着た若い女性」と「真珠のネックレス」という具体的な服装とアクセサリーを指定しています。

背景の詳細

　背景に関する具体的な要素やシーンを指定することで、画像全体のストーリー性を高められます。

例:Create an image of a medieval castle surrounded by a dense, foggy forest.”

　このプロンプトでは、「中世の城」と「濃い霧に包まれた森」という背景の具体的な要素を指定しています。

特定のオブジェクトやシンボル

　画像内に含める特定のオブジェクトやシンボルを指定することで、画像の焦点を明確にすることができます。

例:”Generate an image of a modern office with a large clock on the wall.”

　このプロンプトでは、「モダンなオフィス」と「大きな時計」という具体的なオブジェクトを指定しています。

光の加減や影

　光の方向や強さ、影の配置などを詳細に指定することで、画像の雰囲気を調整します。

例:”Create a portrait with soft, diffused lighting and subtle shadows.”

　このプロンプトでは、「柔らかく拡散した照明」と「微妙な影」という光の加減を指定しています。

プロンプトの調整方法と生成結果の比較

　以上の各要素を踏まえた上で、プロンプトをより具体的に詳細な記述を盛り込んでいくことで、意図通りの画像生成に近づくことが出来ます。以下に、具体的なプロンプトの記載と、プロンプトを調整した結果を３パターンほど挙げます。

例1: キャラクターのポーズ

初期プロンプト: “Create an image of a girl standing in a meadow.”
調整後プロンプト: “Create an image of a girl standing in a meadow, with her hands raised and looking up at the sky. aspect:16:9”

　初期プロンプト：草原で立っている少女が生成される

　修正後プロンプト：更に、両手を上げて上を見ている様子が追加され、画像サイズも16:9に変更されている。

例2: 背景の詳細

初期プロンプト: “Generate an image of a city at night.”
調整後プロンプト: “Generate an image of a bustling city street at night, with neon signs, busy traffic, and people walking.”

初期プロンプト：夜の街全体を俯瞰したような画像が生成される

修正プロンプト：「ネオン看板や交通、人々の歩行」などの具体的な情報が加わったため、活気に満ちた夜の都市の雰囲気がよりリアルに表現される。

例3: 特定のオブジェクトの追加

初期プロンプト: “Create an image of a kitchen.”
調整後プロンプト: “Create an image of a rustic kitchen with a large wooden table, fresh vegetables, and cooking utensils on the counter.”

初期プロンプト：一般的なモダンなキッチンが生成される。

修正後のプロンプト：「大きな木製のテーブル、新鮮な野菜、調理器具」が加わることで、それらのディティールに合わせた、より具体的で雰囲気のあるキッチンが生成される。

　ここまで挙げた事例から分かるように、プロンプトの細部を調整することによって、生成される画像のクオリティを向上させたり、自分の意図に近づけることが可能です。

まとめ

　これまでDALL-E 3を色々と触ってきましたが、画像生成ツールとしてはかなり有用だと思います。基本的なパラメータの設定から詳細なカスタマイズまでを使いこなしていけば、様々なスタイルや雰囲気の画像を自分の意図に近い形で生成できます。
　そのためには、自分がどういう画像を生成したいのかを明確に言語化することが重要になります。できる限り具体的かつ詳細に表現して、DALL-E 3に伝えることが大事だと思います。