はじめに
NTTドコモ サービスイノベーション部の中村圭佑です。普段の業務では画像認識に関する研究開発を行っています。今回は話題となっている画像生成について、社内勉強会にて発表を行いましたので、発表スライドとともにご紹介できればと思います。詳しくは埋め込みのslideshareからご覧になれます。 勉強会ではオフライン・オンライン共に多くの方々にご来場いただき、昨今の生成系AIに対する関心の高さを実感しました。特にユースケースや権利問題については多くのご質問を頂き、ビジネスでの利用に興味がある方が多い印象を受けました。生成系AIは便利である反面さまざまなリスクを抱えているため、R&Dでこのような勉強会を引き続き出来れば良いなと思いました。
発表スライドはこちら
今回は大きく分けて4つの内容で話しました。
- Diffusionへの歩み
- Diffusionの広がりとユースケース
- Diffusionの罠
- まとめ
Diffusionへの歩み(スライドp.7〜)
ここでは最初に機械学習初学者でも理解しやすいよう、VAEやGANから現在主流となっているDiffusionモデルへの変遷について紹介しています。
勉強会では従来の画像生成手法であるGANと異なり、ノイズ画像から目的の画像を生成する過程を学習するのではなく、画像にノイズを時間経過ごとに入れていき、その逆変換を学習していることを説明しました.
Stable diffusion(Latent diffusion)のモデルを見ると実空間の画像を潜在(低次元)空間に移すVAEとテキストエンコーダとしての役割を果たしているCLIP、そしてデノイジング部分で構成されていることがわかります。今までの画像生成モデルの良いところが取り入れられており、text2imageモデルの集大成だなと考えています。
大きく分けて3つの内容を紹介しています。
- VAEからStable diffusionに⾄るまでの画像⽣成AIの歴史
- DDPM(Denoising diffusion probabilistic models)と拡散モデルの基礎
- Stable diffusionのアーキテクチャについて(VAE, U-net, CLIPなどを紹介)
Diffusionの広がりとユースケース(スライドp.18〜)
この章では画像生成モデルで出来ることや実際のユースケース、公開されているモデルについて紹介しています。
ビジネス面でのユースケースは現状少ないなと感じていますが、広告生成・デザイン支援・動画像編集などの目的で着々と導入が進んでいます。目的の画像を生成するためのガイダンス手法やFinetuning手法も続々と研究が進められています。特にLoRA(Low-Rank Adaption)はStable diffusionのFinetuning手法としてはメインストリームになっています。元のパラメータを弄ることなくAttention Layerに追加した差分のパラメータを学習するため、従来のモデル全体をTuningするDreambooth等の手法と比べて非常に高速で計算量が少なくなっています。
ここでは5つの内容を話しました。
- Stable diffusionで出来ること。txt2img、img2img、inpainting、outpaintingについて
- モデル公開サイトの紹介
- 有名どころの事前学習済みモデル紹介
- ガイダンス手法やLoRA等のfinetuning手法について
- ビジネスでのユースケース
Diffusionの罠(スライドp.25〜)
ここではサービスでの商用利用などで避けては通れないセキュリティ、著作権、肖像権、倫理問題について触れています。多くの権利問題があり、法的な整理がなされていない部分も多いため画像生成AI関連のサービスを立ち上げるのは中々難しいことが分かると思います。
モデル自体にセキュリティホールがある場合があり、安全に使うには「.safetensors」形式を使うなど、何らかの対処が必要だと考えています。
- 画像生成サービスの利用条件
- モデルの安全性・正当性について
- 著作権について
- 肖像権について
- 学習データの倫理問題
まとめ(スライドp.36〜)
勉強会では以下の疑問に回答できるような発表を心がけました。
参考リンク
- CALA · Run your fashion brand
- ChilloutMix - Chilloutmix-Ni-pruned-fp32-fix | Stable Diffusion Checkpoint | Civitai
- Civitai | Stable Diffusion models, embeddings, LoRAs and more
- CLIP: Connecting text and images
- Hugging Face – The AI community building the future.
- Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権|知的財産・IT・人工知能・ベンチャービジネスの法律相談ならSTORIA法律事務所
- 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! - Qiita
- オタ恋 – オタクのための恋愛マッチングアプリ オタ恋 - オタクと恋しよ -
- クリエイティブのための生成AI - Adobe Firefly
- 生成系AI技術の活用に関する提言 | 日本俳優連合 オフィシャルウェブサイト
- 弁護士に聞く、AIが生成した画像の著作権問題とそのポイント|@DIME アットダイム
- 各種画像生成AIの利用条件について|MEL
- 画像生成AIのStable Diffusionを組み込んだ建築デザイン支援ツールstadi(旧studiffuse)を提供開始|株式会社mignのプレスリリース
- Variational Autoencoder(VAE)を学ぼう(1/2) - deepblue
- [2006.11239] Denoising Diffusion Probabilistic Models
- 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! - Qiita