AIの進化が目覚ましい昨今、画像生成AIも急速に発展しています。今回は、最新の画像生成AI「FLUX.1」についてわかりやすく解説していきます。
2014年 大学在学中にソフトウェア開発企業を設立
2016年 新卒でリクルートに入社 SUUMOの開発担当
2017年 開発会社Jiteraを設立
開発AIエージェント「JITERA」を開発
2024年 「Forbes 30 Under 30 Asia 2024」に選出
FLUX.1の基本情報
FLUX.1は、あの「Stable Diffusion」を作ったチームが新しく立ち上げた「Black Forest Labs」という会社が開発しました。プロンプトへの忠実性と多様なスタイル対応を兼ね備えた高性能な画像生成AIモデルです。
オープンソースで利用することができ、ローカルやFreepik、NightCafe、Hugging Faceなどのさまざまなプラットフォームで実行することができます。
FLUX.1の主な特徴3選
FLUX.1の主な特徴は以下の3点です。
- 画像内のテキストの再現が得意
- 複雑な構成の画像生成ができる
- 解剖学的に正確な画像を生成できる
画像内のテキストの再現が得意
FLUX.1は、画像内のテキストを正確に再現する能力に優れています。従来のAIモデルでは難しかった複雑な文字の組み合わせや繰り返しも、FLUX.1では問題なく生成できます。
これにより、看板やポスターなど、文字情報が重要なデザインにおいても、視覚的に美しく、かつ正確な表現が可能になりました。
この技術によって、広告業界やデザイン分野での応用が期待されています。
複雑な構成の画像生成ができる
FLUX.1は、画像生成AIの新たな境地を切り開く技術として注目されています。その特筆すべき能力の一つが、複雑な指示に対する忠実な応答です。
例えば、「三人の魔法使いが黄色いテーブルの上に立っている」というような詳細なプロンプトを完璧に再現することができます。
この能力は、FLUX.1が複雑な構成を理解し、正確に再現するための高度なアルゴリズムによって支えられている証拠です。
解剖学的に正確な画像を生成できる
今までの画像生成AIでは、人物の指先などの細かな部分の生成が苦手でしたが、FLUX.1ではこういった課題を解決しています。
この解剖学的に正確な画像生成能力を活かして、クリエイティブなプロジェクトにも多くの可能性を提供します。
アートやデザインの分野では、リアルな人体表現が求められることが多く、FLUX.1の能力はこれらの要求に応えることができます。これにより、より創造的でインパクトのある作品を生み出すことが可能になると考えられます。
FLUX.1の3つのバージョン
FLUX.1には、Pro、Dev、Schnellの3つのバージョンがあります。各バージョンはニーズに応じて設計されており、ユーザーは速度、品質、アクセス方法に基づいて最適なバージョンを選択できます。以下に各バージョンの違いをまとめます。
FLUX.1 Pro
FLUX.1 Proは、シリーズの中で最高性能を誇るモデルです。その主な特徴は、入力プロンプトを忠実に再現する高い能力と、生成される画像の美しさ、繊細さ、そして出力の多様性にあります。
また、Proバージョンは商用利用が可能で、API経由またはReplicate、fal.aiなどのプラットフォームを通じて利用できます。ただし、使用にはGitHubアカウントでのサインインが必要です。
Proバージョンの利用にはAPIレート制限があり、制限に達するとアクセスが制限されます。
ただし、具体的な制限回数は明記されていません。私的使用と商用利用が可能ですが、改変や配布、特許使用に関しては明確な情報がありません。
総じて、FLUX.1 Proは高品質で多様な画像生成が求められるプロフェッショナルな用途に適した、最先端の画像生成AIモデルと言えます。
FLUX.1 Dev
FLUX.1 Devは、研究や開発向けに設計されたオープンウェイトモデルで、自由に利用できます。このモデルはFLUX.1 Proから蒸留されており、高品質な画像を効率的に生成し、プロンプトへの忠実性が高いのが特徴です。
商用利用は生成された画像に対して可能ですが、モデル自体やその派生物の商業利用は禁止されています。
美少女イラストからリアルな写真、アート風の画像まで幅広く対応し、高度なテキストレンダリング能力も持っています。
推奨スペックはRAM 32GB以上、VRAM 16GB以上ですが、最近のアップデートで軽量化が進んでいます。
オンラインサービスやローカル環境での利用が可能で、12Bパラメータを持つ大規模モデルとして多様な画像生成が期待できます。
FLUX.1 Devは、高品質な画像生成とオープンな利用可能性を兼ね備えた理想的な選択肢です。
FLUX.1 Schnell
FLUX.1 Schnellは、シリーズの中で最も軽量かつ高速なモデルです。主にローカル環境での使用や個人開発向けに設計されています。
このモデルの最大の特徴は、画像生成プロセスを少ないステップ数で行えるように最適化されていることです。これにより、非常に高速な画像生成が可能となっています。
性能面では、現在運用されている画像生成AIモデルの中で、Midjourney-V6.0に近い性能を持つと言われています。
ただし、FLUX.1 ProやDevモデルと比較すると、画質や細部の表現においてやや劣る可能性があります。
FLUX.1 Schnellは、Hugging Faceなどのプラットフォームで簡単に利用でき、高速な画像生成が必要な場面や、ローカル環境での開発に適したモデルと言えます。
FLUX.1を使う方法
FLUX.1を使うには、主に2つの方法があります。
オンラインサービスを使う
FLUX.1をオンラインで利用する主な方法は以下の通りです。
Hugging Face
- ログイン不要で利用可能
- devモデルとschnellモデルが利用できる
- Advanced Settingsからアスペクト比などの詳細設定が可能
Replicate
- Githubアカウントでのログインが必要
- Proモデルを含む各種モデルが利用可能
fal.ai
- Githubアカウントでのログインが必要
- 無料利用枠が比較的多い
- APIを通じた利用も可能
これらのプラットフォームを利用することで、ローカル環境を構築せずにFLUX.1を試すことができます。特にHugging Faceは、ログイン不要で簡単に利用できるため、FLUX.1の機能を手軽に体験したい場合に適しています。
ローカル環境で動かす
FLUX.1をローカル環境で動かす主な方法は、ComfyUIを使用することです。以下に手順をまとめます。
1.ComfyUIの導入
- GitHubからComfyUIリポジトリをクローン
- Python仮想環境を作成し、アクティベート
- 必要なモジュールをインストール
2.必要なファイルのダウンロードと配置
- メインモデル: flux1-dev.safetensors または flux1-schnell.safetensors
- CLIPモデル: clip_l.safetensors, t5xxl_fp16.safetensors
- VAE: ae.safetensors
3.ファイルの配置
- メインモデル: ComfyUI/models/unet フォルダに配置
- CLIPモデル: ComfyUI/models/clip フォルダに配置
- VAE: ComfyUI/models/vae フォルダに配置
4.ComfyUIの起動と設定
- ComfyUIを起動
- ワークフローをComfyUIにドラッグ&ドロップ
- プロンプトを入力し、「Queue Prompt」ボタンで画像生成
ローカル環境構築の注意点
・FLUX.1は高いスペックを要求します(推奨: RAM 32GB以上)
・32GB未満のRAMの場合、schnellモデルと軽量化されたCLIPモデルを使用
・Mac環境(特にApple Silicon)でも動作可能ですが、設定に注意が必要
FLUX.1をローカルで動かすことで、オンラインサービスに依存せずに高品質な画像生成が可能になります。ただし、適切なハードウェアと設定が必要なため、初心者の方は注意深くセットアップを行う必要があります。
Midjourneyなど他の生成AIとFLUX.1との違い
利用者が気になるのが、FLUX.1の性能が他の生成AIと比べてどうなのか?という点でしょう。以下で他の生成AIモデルとの比較をしてみます。
FLUX.1 vs Stable Diffusion
FLUX.1は、Stable Diffusionの開発チームによって作られた新しいモデルですが、その性能はStable Diffusionを大きく上回っています。
FLUX.1は、特に画像の細部や解剖学的正確さにおいて優れており、生成速度も向上しています。
一方、Stable Diffusionは幅広い利用と豊富なコミュニティリソースが強みですが、FLUX.1の登場により、AIイメージ生成の新たな基準が設定されたと言えるでしょう。
FLUX.1 vs DALL-E 2
FLUX.1とDALL-E 2を比較すると、両者ともに高度なテキスト理解能力を持っていますが、FLUX.1の方がより複雑な指示にも正確に対応できる傾向があります。
特に、複数の要素を組み合わせた画像生成において、FLUX.1はより一貫性のある結果を提供します。
DALL-E 2は創造性に優れていますが、FLUX.1は精密さと現実感において優位に立っています。
FLUX.1 vs Midjourney
Midjourneyがアーティスティックなスタイルとクリエイティブな表現で知られる一方、FLUX.1はフォトリアリズムと解剖学的正確さで優れています。
テキストのレンダリングにおいては、FLUX.1が一貫してMidjourneyを上回っており、特に看板やポスターなどのテキストを含む画像生成で強みを発揮します。
他の生成AIとの比較表
以下に他の生成AIとの比較表も載せましたので参考にしてみてください。
特徴 | FLUX.1 | Midjourney v6 | Stable Diffusion 3 | DALL-E 3 |
画質 | 非常に高い | 非常に高い | 高い | 非常に高い |
プロンプト忠実性 | 非常に高い | 高い | 中程度 | 高い |
生成速度 | 速い (特にSchnellモデル) | 中程度 | 速い | 中程度 |
多様な画風対応 | 非常に幅広い | 幅広い | 幅広い | 幅広い |
テキスト生成能力 | 高い | 中程度 | 低い | 高い |
リアルな写真生成 | 非常に優れている | 優れている | 良好 | 優れている |
アート風画像生成 | 非常に優れている | 優れている | 優れている | 優れている |
ローカル実行 | 可能 (Dev/Schnellモデル) | 不可 | 可能 | 不可 |
商用利用 | 可能 (Proモデルのみ) | 可能 (有料プラン) | 可能 (一部制限あり) | 可能 (有料プラン) |
FLUX.1の応用分野
FLUX.1は、その高度な画像生成能力により、様々な産業分野で革新的な変化をもたらしています。
特に、クリエイティブ産業、マーケティングと広告、そしてゲームと映画の分野での活用が注目されています。
クリエイティブ産業
FLUX.1は、クリエイティブ産業に大きな変革をもたらしています。
特に、人間の手の自然な描写が可能になったことで、キャラクターデザインや広告ビジュアルの制作が大幅に改善されました。
また、多様な画風と高品質な出力により、クリエイターの表現の幅が広がっています。
FLUX.1を活用することで、クリエイティブ産業は新たな可能性を探求し、より魅力的なコンテンツを生み出すことができるでしょう。
マーケティングと広告分野
FLUX.1の高精度なテキスト処理能力は、マーケティングと広告分野で革命を起こしています。
複雑な単語や指示を正確に理解し画像に反映させる能力により、ブランドメッセージを視覚的に正確に伝えることが可能になりました。
例えば、「チョコレートケーキ」と「チーズケーキ」のような似た単語も正確に区別して生成できるため、商品イメージの制作が容易になります。
また、複雑な構図の再現能力により、多様な要素を含む広告ビジュアルの制作が効率化されています。
ゲームと映画への活用
FLUX.1は、ゲーム開発と映画・アニメーション制作の分野でも革命をもたらしています。
FLUX.1の複雑な構図の再現能力で、キャラクターデザインや背景アートの制作が効率化され、より魅力的で没入感のあるゲーム世界の創造が可能になりました。
多様な画風と高品質な出力能力により、様々なジャンルやスタイルのゲームビジュアルを生成できるため、開発者はより創造的なアイデアに集中できます。
これは映画・アニメーション制作においても同様で、コンセプトアートやストーリーボードの制作が効率化され、クリエイターはより多くの時間を創造的な作業に費やすことができます。
人間の手の自然な描写能力は、キャラクターのアニメーションをより自然で魅力的なものにしています。
FLUX.1の利用コストは?
FLUX.1の利用料金は、選択するモデルとその使用方法によって大きく異なります。
商用利用が可能なFLUX.1 Proは有料モデルで、一般的に画像1枚あたり約0.05ドル(約8円)の料金がかかります。
このモデルは主にAPIサービスやReplicate、fal.aiなどのプラットフォームを通じて利用できます。
一方、FLUX.1 DevとFLUX.1 Schnellは、主に非商用や個人利用、開発目的を想定したモデルで、基本的に無料で利用できます。
特にFLUX.1 Devは研究や開発目的での使用が許可されており、Hugging Faceなどのプラットフォームで無料で試すことができます。
モデル | 基本料金 | 利用形態 | 備考 |
FLUX.1 Pro | 約0.05ドル/画像 | API, Replicate, fal.ai | 商用利用可能 |
FLUX.1 Dev | 無料 | Hugging Face, ローカル環境 | 非商用利用のみ |
FLUX.1 Schnell | 無料 | Hugging Face, ローカル環境 | 個人利用・開発向け |
オンラインサービスを利用する場合、プラットフォームによっては無料利用枠が設定されており、それを超えると課金が発生する可能性があります。
ローカル環境で使用する場合は、モデルをダウンロードして自分のパソコンで動かすため、基本的に追加の利用料は発生しません。
ただし、具体的な料金プランや利用条件は、各プラットフォームや利用方法によって異なるため、実際に利用する際には最新の情報を確認することが重要です。
FLUX.1の利用を検討する際は、自身の利用目的や予算に合わせて適切なモデルとプラットフォームを選択することが賢明です。
NSFWへの対応は?
FLUX.1は、画像生成AIとしての能力を最大限に活用しながら、NSFW(Not Safe For Work)コンテンツに対する適切なフィルタリングを実施しています。
FLUX.1には、ユーザーが「安全許容度」を選択できる機能があり、これにより生成されるコンテンツの安全性をカスタマイズすることが可能です。
この機能は、商業利用におけるコンテンツの適切性を確保するために重要な役割を果たしています。
FLUX.1のまとめ
FLUX.1は、画像生成AIの世界に新たな風を吹き込む超強力なツールです。
高品質な画像生成能力、多様なスタイル対応、そして細部へのこだわりが特徴で、クリエイティブな作業からビジネス利用まで、幅広い可能性を秘めています。
ただし、その能力を最大限に引き出すには、適切な使い方と倫理的な配慮が必要です。AIの進化は目覚ましいものがありますが、それを使いこなすのは私たち人間です。
今まで画像生成AIを使っていた人も、そうでなかった人も、このツールを使うことできっと新しい発見があるはずです。楽しみながら、賢く使っていきましょう。