NTTドコモR&Dの技術ブログです。

写真1枚で愛猫が3Dに?話題の3D生成AIでモデル作成からUnity実装まで試してみた

1. はじめに

こんにちは、NTTドコモ サービスイノベーション部の笛田です。業務では主に、社内での生成AI活用の認知拡大・風土醸成や生成AIを用いた業務課題解決支援、育成などを担当しています。

昨今、ChatGPTやMidjourneyをはじめとするテキスト・画像生成AIが広く普及しましたが、その波は「3Dコンテンツ制作」の分野にも押し寄せています。 3Dモデルはメタバース空間やXRの体験などには不可欠なものですが、これまで3Dモデルを作成するには、BlenderやMayaといったツールの習得、そしてモデリング・テクスチャリング・リギングといった多くの工程と膨大な時間が必要でした。 「もっと手軽に、自分の思い描いた3D空間を作れないか?」と個人的に興味を持ち、今回は話題の3D生成AIツールを実際に試し、Unity上で動かすところまでを検証してみることにしました。

2. ゴール

本記事での検証ゴールは以下の通りです。

1. 代表的な3D生成AIサービスのうち、「Tripo 3D」と「Meshy」を使用する。

注記: 本検証はセキュリティ規定に則り、適切な環境下で実施しています。上記ツールはドコモ社内環境からのアクセス等が許可されていることを前提とした検証ではありません。本記事はドコモグループ倫理方針およびドコモグループプライバシーポリシーに準拠して作成しています。掲載画像は筆者が撮影したもの、または生成AIによる出力であり、第三者の個人情報・権利を侵害しないことを確認しています。外部サービスの利用に際しては各サービスの利用規約に従っています。

2.「実写の写真」と「生成AIで作った画像」から3Dモデルを生成する。

3. 生成したモデルをゲームエンジンであるUnity上に配置し、実際に動かしてみる。

3. ツールの紹介

今回使用する2つの主要なAIツールを紹介します。

1. Tripo 3D:大規模再構成モデル(LRM)を基盤とし、インフラとしてのAPI提供やシステム連携に強みを持つ。圧倒的な生成速度が特徴。

2. Meshy:テクスチャリング、リギングを含むワークフロー全体の自動化と品質を重視。高品質テクスチャが特徴。

4. ツール利用:実際に作ってみる

それでは、実際に以下の2つのパターンで制作を行います。

ケースA:飼い猫の写真から3Dモデル生成

まずは、私の飼い猫の写真を使って、デジタルの世界に愛猫を召喚してみます。

入力画像:

ラグドールの画像

Tripo 3Dでの生成

画像をTripo 3Dにアップロード
モデルとテクスチャを生成

画像をアップロードして生成を実行したところ、モデル形状とテクスチャが生成されました。単一画像からの生成にもかかわらず背面まで推測して生成されており、その精度に驚きましたが、横から見ると「プリントされたクッション」のように厚みがあるだけの形状になってしまいました。これは複数画像を入力することで改善される可能性が高いと思われます。

なお、エクスポートにおいては残念ながらテクスチャが出力されませんでした(今回の検証環境/プランにおける制限、あるいは設定手順による可能性があります)。

Meshyでの試行

続いて、同じ画像をMeshyに入力しました。今回は無料プランなのでMeshy4で生成しましたが上位のMeshy5などではもっと高精度に生成できそうです。

Meshyでは4つのドラフトモデルが提示されるため、形状が良いものを一つ選んでテクスチャを生成します。

Meshy4でモデルとテクスチャを生成

<参考>Meshy5でのモデルとテクスチャ生成
Unityへの配置:Meshyからfbx形式でモデルをダウンロードし、Unityのシーンに配置しました。写真一枚だけで、愛猫が3Dワールドに存在している様子は感動的です。
Meshy4で生成したモデルをUnity上に配置

ケースB:Geminiで作ったロボット画像を動かす

今度は「動かす(アニメーションさせる)」ことに挑戦します。 座っている猫の写真では動かすのは難しいので、今回は完全に架空の人型のキャラクターを作成してみます。

ステップ1:元画像の生成

GoogleのGeminiに人型ロボットのデザイン画を作成してもらいました。

Geminiで生成したロボットの画像

ステップ2:3Dモデル化

この画像をMeshy4にアップロードし、ケースAの猫と同じように3Dモデル化、テクスチャ作成をしました。

ロボットの3Dモデルとテクスチャを生成

ステップ3:リギングとアニメーション

生成された3Dモデルには骨組み(ボーン)が入っていないため、そのままでは動きません。Meshyで骨組みを追加し、アニメーションが動くことを確認した上でボーンを含めてエクスポートしました。

ボーンやアニメーションの付与とエクスポート

Unityでの実行結果: Unity上のシーンに配置してモーションを適用。Geminiが描いたロボットが、Unityのワールド上でしっかりと動いています!

Unityへの配置とアニメーション

5. 検証から得られた知見とポイント

今回の検証を通じて、開発者視点で得られた「3D生成AI活用のポイント」を以下の3点にまとめました。

1. 専門知識ゼロでも「配置」まで完結できる

従来必須だった「モデリング」「UV展開」「リギング」といった専門的な工程が、AIによって自動化されています。「Unity等の空間にオブジェクトを置きたいが、アセットを作る技術がない」というエンジニアにとって、これは強力な武器になります。

2. 入力画像の選定が「品質」を左右する(2D画像生成AIとの相性)

「猫」の生成事例で分かったように、単一画像からの生成では奥行きの推定に失敗し、クッションのような形状になることがあります。一方で、「ロボット」のような人型の明確な立ち絵を入力すると、単一画像でありながら違和感のないモデルが生成できました。画像からのモデル生成では生成物の形状に応じた入力画像の品質が重要であり、作りたいモデルにもよりますが、「生成AIで理想的な下絵を作り、それを3D化する」というパイプラインが、現時点で最も効率的なワークフローであると感じました。

3. 「プロトタイピング」における最強のツール

商用レベルの緻密なモデルを作るにはまだ調整が必要ですが、「イメージを共有したい」「とりあえず空間を埋めたい」というプロトタイピング用途においては、圧倒的なスピード感を提供してくれます。アイデアを即座に形にするためのツールとして、開発の初期フェーズに組み込む価値は十分にあります。

6. おわりに

冒頭で掲げた「もっと手軽に、自分の思い描いた3D空間を作れないか?」という問いに対し、今回の検証を経た今の答えは「想像以上に手軽に、そしてスピーディーに実現できる」です。

写真一枚、テキスト一つから「動く3Dモデル」が生まれ、それをUnity空間に配置できた体験は、まさに「思い描いた空間づくり」の入り口に立ったと実感できるものでした。

もちろん、商用レベルの品質にはまだ調整が必要ですが、他の生成AI同様3D生成AIの技術も日進月歩のスピードで進化しています。わずか半年の間にバージョンアップが入り、生成モデルの精度が劇的に変わることも珍しくありません。

今回は「画像からモデル生成」を行いましたが、テキストから画像を生成し、その画像からモデルを生成、さらにはアニメーション付きモデルまで一気通貫で生成することも可能になっています。

メタバース空間やXRの体験において、ユーザー自身が自分のアバターやアイテムをAIで簡単に生成する未来はすぐそこに来ています。3Dモデル作成を日常の業務で扱う機会は多くないかもしれませんが、未来のサービスを想像する上で、こうした領域のAI進化も心に留めておくことが大切だと感じました。