AI用語集
生成AI・プロンプトエンジニアリングに関する80以上の専門用語を日本語でわかりやすく解説。 Stable Diffusion、Midjourney、ChatGPT、Claudeなど主要AIツールの用語を網羅しています。
ア行
アウトペインティング
Outpainting既存の画像の外側にAIが新しいコンテンツを生成して、画像を拡張する技術。元の画像のスタイルやコンテキストを維持しながら、キャンバスサイズを拡大できます。
アスペクト比
Aspect Ratio画像の横と縦の比率。Midjourneyでは「--ar 16:9」のようにパラメータで指定可能。用途に応じて正方形(1:1)、横長(16:9)、縦長(9:16)などを選択します。
アップスケール
Upscale低解像度の画像を高解像度に拡大する処理。AI画像生成では、まず低解像度で生成し、気に入った結果をアップスケールして高解像度版を得るワークフローが一般的です。
Attention
Attention MechanismAIモデルが入力データの各部分に異なる「注目度」を割り当てる機構。Transformerの核心技術であり、Self-Attention(自己注意)とCross-Attention(交差注意)の2種類が画像生成で重要です。
img2img
Image to Image既存の画像を入力として、それを基に新しい画像を生成する手法。元画像の構図や色合いを維持しながら、スタイルや細部を変更できます。
イン・コンテキスト学習
In-Context Learningプロンプト内に例を与えることで、モデルの動作を誘導するテクニック。Few-Shotプロンプティングの基盤となる概念で、追加の学習なしにモデルの出力パターンを制御できます。
インペインティング
Inpainting画像の一部をマスクで指定し、その部分だけをAIに再生成させる技術。不要なオブジェクトの除去や、特定の部分だけの修正に使用されます。
ウェイト
Weight / Emphasisプロンプト内の特定のキーワードに対する重要度の指定。Stable Diffusionでは「(keyword:1.3)」のように数値で指定し、値が大きいほど強調されます。
Web UI
Web UI (AUTOMATIC1111)Stable Diffusionの最も普及しているブラウザベースインターフェース。AUTOMATIC1111が開発。txt2img、img2img、インペインティングなどの機能をGUIで操作でき、拡張機能も豊富です。
エージェント
AI Agent自律的にタスクを計画・実行できるAIシステム。ツールの呼び出し、Web検索、コード実行など複数のアクションを組み合わせて、複雑な目標を達成します。
API
Application Programming InterfaceAIサービスをプログラムから利用するためのインターフェース。OpenAI API、Anthropic API、Google AI APIなどを通じて、アプリケーションにAI機能を組み込めます。
SDXL
Stable Diffusion XLStable Diffusionの高解像度版モデル。1024×1024ピクセルのネイティブ解像度で生成可能。ベースモデルとリファイナーの2段階生成により、より高品質な画像を出力します。
Aesthetic Score
Aesthetic Score画像の美的品質を数値で評価するスコア。SDXLの学習データでは美的スコアが高い画像が優先的に使用されており、生成画像の品質に直接影響します。
エンベディング
Embeddingテキストや画像などのデータを数値ベクトルに変換する技術。Stable Diffusionでは、特定のスタイルやキャラクターを学習したTextual Inversionファイルを指します。
カ行
解像度
Resolution画像のピクセル数。SD1.5は512×512、SDXLは1024×1024がネイティブ解像度。学習解像度と大きく異なる設定で生成すると品質が低下するため、モデルに合った解像度の選択が重要です。
ガイダンススケール
Guidance Scale / CFG Scaleプロンプトへの忠実度を制御するパラメータ。Classifier-Free Guidance Scaleの略。値が高いほどプロンプトに忠実だが、高すぎると画像が不自然になる。一般的に7〜12が推奨。
過学習
Overfittingモデルが学習データに過度に適合し、新しいデータに対する汎用性が低下した状態。LoRAやDreamBoothのファインチューニングで、学習ステップ数が多すぎると発生します。
拡散モデル
Diffusion Model画像にノイズを段階的に加え、逆にノイズを除去する過程を学習することで画像を生成するAIモデル。Stable Diffusion、DALL-E 3、Midjourneyの基盤技術です。
画像生成AI
Image Generation AIテキストプロンプトから画像を自動生成するAI技術の総称。Stable Diffusion、Midjourney、DALL-Eが代表的。プロンプトの書き方で出力品質が大きく変わります。
クオリティタグ
Quality Tags画像の品質を向上させるために使用するプロンプトキーワード。「masterpiece」「best quality」「highly detailed」「8k」などが一般的。ネガティブプロンプトと組み合わせて使用します。
CLIP
Contrastive Language-Image Pre-Trainingテキストと画像の関連性を理解するモデル。Stable Diffusionでプロンプトのテキストを解釈する部分に使用されています。CLIPの理解がプロンプトの効果を左右します。
Claude
ClaudeAnthropicが開発した対話型AI。長文の理解と分析に優れ、200Kトークンの長いコンテキストウィンドウが特徴。安全性と有用性のバランスを重視した設計で、コーディングや文章作成に強い。
コンテキストウィンドウ
Context WindowAIモデルが一度に処理できるテキストの最大長。トークン数で表され、モデルによって異なる(例:GPT-4は128K、Claude 3は200K)。長い文書の分析や複雑な会話に影響します。
コントロールネット
ControlNetStable Diffusionの拡張機能。ポーズ検出、エッジ検出、深度マップなどの条件を追加入力として、構図やポーズを精密に制御できます。人物のポーズ指定に特に有効。
ComfyUI
ComfyUIStable Diffusionのノードベースの高度なUI。ワークフローを視覚的に構築でき、複雑な画像生成パイプラインをカスタマイズできます。上級者向けだが柔軟性が非常に高い。
サ行
サンプラー
Sampler拡散モデルでノイズ除去を行うアルゴリズム。Euler、DPM++、DDIMなど複数の種類があり、速度と品質のバランスが異なる。一般的にDPM++ 2M KarrasやEuler aが高品質。
サンプリングステップ
Sampling Steps画像生成時のノイズ除去の反復回数。ステップ数が多いほど詳細な画像になるが、生成時間も増加する。一般的に20〜50ステップが推奨されます。
シード値
Seed乱数生成の初期値。同じプロンプト、パラメータ、シード値を使えば同じ画像を再現できる。気に入った結果のシード値を記録し、微調整に活用します。Midjourneyでは「--seed 数値」で指定。
JSONモード
JSON ModeAIの出力を有効なJSON形式に制限するモード。APIで構造化データを取得する際に使用し、プログラムからの解析が容易になります。OpenAI APIやClaude APIで利用可能。
Gemini
GeminiGoogleが開発したマルチモーダルAI。テキスト、画像、コードの理解と生成に対応。Google検索やWorkspaceとの深い統合が特徴で、最新情報へのアクセスが強み。
システムプロンプト
System PromptAIの動作方針を設定する特別なプロンプト。ユーザーからの入力の前に処理され、AIの人格、制約、出力形式などを定義します。API利用時にsystem messageとして設定します。
自然言語処理
Natural Language Processing (NLP)コンピュータが人間の言語を理解・生成する技術分野。ChatGPTやClaudeなどの大規模言語モデル(LLM)は、NLPの最新の成果です。
ステーブルディフュージョン
Stable DiffusionStability AIが開発したオープンソースの画像生成AIモデル。ローカル環境で無料実行可能。Web UIやComfyUIなどのインターフェースを通じて使用し、拡張性の高さが特徴です。
Stable Diffusion 3
Stable Diffusion 3Stability AIが開発したSD系列の最新モデル。MMDiT(マルチモーダルDiffusion Transformer)アーキテクチャを採用し、テキスト描画能力とプロンプト理解力が大幅に向上。
ストリーミング
StreamingAIの応答をリアルタイムで逐次表示する方式。全文生成完了を待たずにテキストが流れるように表示されるため、ユーザー体験が向上します。ChatGPTやClaudeで採用。
生成AI
Generative AIテキスト、画像、音声、動画などの新しいコンテンツを生成できるAIの総称。ChatGPT(テキスト)、Stable Diffusion/Midjourney(画像)、Suno(音楽)などが代表例です。
タ行
大規模言語モデル
Large Language Model (LLM)膨大なテキストデータで学習された巨大なニューラルネットワーク。GPT-4、Claude、Gemini、Llamaなどが代表例。テキスト生成、翻訳、要約、コード生成など多様なタスクに対応します。
DALL-E
DALL-EOpenAIが開発した画像生成AIモデル。テキストから高品質な画像を生成でき、DALL-E 3はChatGPTとの統合により自然言語での指示が可能。安全性フィルターが厳格に設定されています。
チェーン・オブ・ソート
Chain of Thought (CoT)「ステップバイステップで考えてください」と指示し、AIに推論過程を明示させるテクニック。複雑な数学問題や論理的推論の精度が大幅に向上します。
チェックポイント
CheckpointStable Diffusionで使用するモデルファイル。学習済みの重みデータを含み、画風やスタイルが異なる。AnimagineXL(アニメ向け)、Realistic Vision(リアル向け)など用途別のモデルがあります。
ChatGPT
ChatGPTOpenAIが開発した対話型AI。GPT-4をベースに、自然な会話形式でタスクを処理。プラグイン、DALL-E統合、Code Interpreterなどの機能を持つ、最も広く使われているAIツール。
テキスト生成
Text GenerationAIがプロンプトに基づいて文章を自動生成する技術。記事作成、メール文面、コード生成、翻訳など幅広い用途に活用されます。ChatGPT、Claude、Geminiが代表的なツール。
txt2img
Text to Imageテキストプロンプトから画像を生成する最も基本的な機能。プロンプトに記述した内容をAIが解釈し、画像として出力します。img2imgと対比される基本モード。
Textual Inversion
Textual InversionStable Diffusionで新しいコンセプトや概念を少数の画像から学習し、プロンプト内で使用できるようにする技術。エンベディングファイルとして保存され、特定の画風やオブジェクトを再現できます。
デノイジング強度
Denoising Strengthimg2img生成時に元画像をどの程度変更するかの指標。0に近いと元画像に忠実、1に近いと大きく変更される。0.3〜0.7が一般的な範囲です。
temperature
TemperatureAIの出力のランダム性を制御するパラメータ。0に近いと確定的で一貫した出力、1以上では創造的で多様な出力になる。正確さ重視→低め、創造性重視→高めに設定します。
トークン
TokenAIが文章を処理する最小単位。英語では1単語≒1トークン、日本語では1文字≒1〜3トークン。APIの料金やコンテキストウィンドウの制限はトークン数で計算されます。
トップP
Top-P (Nucleus Sampling)AIの出力トークン選択を制御するパラメータ。累積確率がPに達するまでの上位トークンのみから次のトークンを選択する。temperatureと組み合わせて出力の多様性を調整します。
Transformer
Transformer2017年にGoogleが発表した深層学習アーキテクチャ。注意機構(Attention)を核とし、GPT、BERT、Stable Diffusionなど現代のほぼすべてのAIモデルの基盤技術です。
ドリームブース
DreamBooth少数の画像(5〜20枚)から特定の被写体(人物、ペット、製品など)をモデルに学習させる技術。学習後は、その被写体を自由なシーンやスタイルで生成できます。
ナ行
ネガティブプロンプト
Negative PromptAI画像生成で「生成してほしくない要素」を指定するプロンプト。「bad hands, extra fingers, low quality, blurry」など品質低下要因を除外し、出力品質を大幅に向上させます。
ノイズ除去
Denoising拡散モデルの画像生成プロセスの核心。ランダムノイズから段階的にノイズを取り除いてクリアな画像を作り出す。サンプラーとステップ数がこのプロセスの品質を決定します。
ハ行
ハイパーパラメータ
Hyperparameterモデルの学習や生成を制御する設定値。画像生成ではCFGスケール、サンプリングステップ、シード値など。テキスト生成ではtemperature、top_pなどが代表的です。
ハイレゾフィックス
Hires FixStable Diffusionで高解像度画像を生成する際のテクニック。まず低解像度で生成し、アップスケーラーで拡大後にimg2imgで詳細を追加する2段階プロセスで高品質な大画像を得ます。
パラメータ
ParameterMidjourneyでプロンプトの末尾に追加する設定値。「--ar 16:9」(アスペクト比)、「--v 6」(バージョン)、「--chaos 50」(多様性)、「--q 2」(品質)などがあります。
ハルシネーション
HallucinationAIが事実と異なる情報をもっともらしく生成する現象。存在しない論文の引用や架空の事実の提示など。プロンプトで「確信がない場合はその旨を明記して」と指示することで軽減できます。
ビジョン
Vision / Image UnderstandingAIが画像を理解・分析する能力。GPT-4V、Claude 3、Geminiなどのマルチモーダルモデルは、画像内のテキスト読取、図表の解析、写真の説明などが可能です。
ファインチューニング
Fine-Tuning事前学習済みモデルを特定のタスクやデータセットで追加学習させる技術。LoRA、DreamBooth、Textual Inversionなどの手法があり、モデルの出力を特定の用途に最適化できます。
Function Calling
Function Calling / Tool UseAIモデルが外部の関数やAPIを呼び出す機能。検索、計算、データベース操作などのツールを定義し、AIが適切なタイミングで自動的にツールを選択・実行します。
VAE
Variational AutoencoderStable Diffusionで画像のエンコード・デコードを担当するコンポーネント。VAEの種類によって色味や細部の表現が変わる。カスタムVAEに差し替えることで、色の鮮やかさを改善できます。
VRAM
Video RAMGPUに搭載されたビデオメモリ。Stable Diffusionのローカル実行には最低4GB、快適な利用には8GB以上のVRAMが必要。高解像度やバッチ生成ではより多くのVRAMを消費します。
フューショット
Few-Shotプロンプトに数個の入出力例を含めて、AIの出力パターンを誘導するテクニック。「例: 入力→出力」を2〜5個提示することで、タスクの理解と出力品質が向上します。
FLUX
FLUXBlack Forest Labsが開発した最新の画像生成モデル。Stable Diffusionの開発者が手掛けた次世代モデルで、テキスト描画やプロンプト理解力に優れています。
プロンプト
PromptAIに対する指示文。テキスト生成AIでは質問や指示の文章、画像生成AIでは生成したい画像の説明テキストを指します。プロンプトの質がAIの出力品質を直接左右する重要な要素です。
プロンプトインジェクション
Prompt Injection悪意のある入力でAIの動作を意図しない方向に誘導するセキュリティ攻撃。システムプロンプトの漏洩や、制限の回避を試みる手法。AI開発者が対策すべき重要な課題です。
プロンプトエンジニアリング
Prompt EngineeringAIから最適な出力を得るためにプロンプトを設計・最適化する技術。ロール設定、例示、制約条件の追加など、様々なテクニックを組み合わせてAIの性能を最大限に引き出します。
プロンプトテンプレート
Prompt Template再利用可能なプロンプトの雛形。変数({トピック}、{対象者}など)を含み、用途に応じて値を差し替えることで、一貫した品質のプロンプトを効率的に作成できます。
マ行
マルチモーダル
Multimodalテキスト、画像、音声など複数の種類のデータを同時に処理できるAIの特性。GPT-4V、Claude 3、Geminiは画像理解が可能なマルチモーダルモデルです。
ミッドジャーニー
MidjourneyDiscord上で動作するAI画像生成サービス。アーティスティックで高品質な画像生成が特徴。「/imagine」コマンドでプロンプトを入力し、「--ar」「--v」などのパラメータで細かく制御します。
モデルマージ
Model Merge複数のAIモデルの特徴を融合して新しいモデルを作成する技術。異なるモデルの長所を組み合わせて、独自の画風やスタイルを持つカスタムモデルを作れます。
ヤ行
ラ行
RAG
Retrieval-Augmented Generation外部データベースから関連情報を検索し、それをコンテキストとしてAIに与えることで、最新かつ正確な回答を生成する技術。ハルシネーション対策として企業で広く採用されています。
リファイナー
RefinerSDXLで使用される2段階目の処理モデル。ベースモデルが生成した画像に対して、細部の品質を向上させ、テクスチャやディテールを改善する役割を持ちます。
Latent Space
Latent SpaceAIモデルが学習したデータの圧縮表現空間。Stable Diffusionでは画像をピクセル空間ではなく潜在空間でノイズ除去することで、計算効率を大幅に向上させています。
LoRA
Low-Rank Adaptation少ないデータとリソースでモデルを効率的にファインチューニングする手法。Stable Diffusionでは、特定のキャラクター、画風、ポーズなどを学習した小さなファイル(数MB〜数百MB)を追加してスタイルを変更できます。