本記事はUnreal Engineからオープン日本語LLMを使ってみるハンズオンの解説記事です。

導入

大規模言語モデルの発展が目覚ましい昨今、その利用方法を考えたときにNPC（Non Player Character）というのは1つの適応先かと考えています。少し調べただけでも以下のように興味深い事例がたくさん出てきます。

これは、弊社のコミュニケーションサービスMetaMeでも同様でして、2023年12月現在ではウサギ型のNPCが徘徊していて、AIとの対話を体験することができます。

「MetaMeって何？」と興味を持っていただいた方は、ぜひLPや下記Noteなどを訪れていただけると嬉しいです。

note.metame.ne.jp

そこで、今回はそのような仕組みを簡単に作れないかと思い至りました。
仮想空間構築にUnreal Engineを利用し、日本語対応LLMとしてRinnaを活用して、LLMとの対話が可能なNPCの作成を行っていきたいと思います。

本題

想定しているのは、添付画像のような構成です。

基本的に、

①　対話部分
②　WebSocket部分
- 対話側のServer
- UE側のClient

③　NPC制御部分

に分けて説明していきます。ただし、③については分量の関係やUEの公式が手厚いので、その公式の紹介に留めさせていただければと思います。

③以外を実装すると、下記のような動作が可能です。
（動画はGIFにする関係上1.5倍速にしているのと、CPU実行だとLLMが30秒くらい返答にかかっていたので、中略と書かせていただいています）

1. 対話部分について

モデルはRinnaを使用します。
デフォルトで日本語対応はありがたいですね。

プレス

https://rinna.co.jp/news/2023/05/20230507.html

モデル

https://huggingface.co/rinna/japanese-gpt-neox-3.6b-instruction-sft

また、Rinnaの基本的な扱い方は、こちらのコードを参考にさせていただきました。

自宅PCで「rinna」の日本語言語モデルを試用、メモリ32GBあればCPUだけでも動くぞ！

2. WebSocket部分

対話側のServer

さらに、UEとの通信を実現するために、Rinnaの実行ロジックをWebSocketのサーバーと組み合わせます。私は、下記を参考にしました。

python-websocket-server
- https://github.com/Pithikos/python-websocket-server/blob/master/LICENSE

実際のソースコードがこちら。
Promptは色々考えましたが、一旦空欄です。

## Rinnaを動かす部分
import time
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from websocket_server import WebsocketServer

tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt-neox-3.6b-instruction-sft", use_fast=False)

# 標準
#model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt-neox-3.6b-instruction-sft")
# 自動
model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt-neox-3.6b-instruction-sft", device_map='auto')
# 自動(VRAM16GB以下でも8GBはNG)
# model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt-neox-3.6b-instruction-sft", torch_dtype=torch.float16, device_map='auto')
# CPU指定
# model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt-neox-3.6b-instruction-sft").to("cpu")
# GPU指定
# model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt-neox-3.6b-instruction-sft").to("cuda")
# GPU指定(VRAM16GB以下でも8GBはNG)
# model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt-neox-3.6b-instruction-sft", torch_dtype=torch.float16).to("cuda")

first_prompt = ""

prompt = first_prompt

def rinna_start(message):
    prompt = f"ユーザー: {message}<NL>システム: "
    print("Len：" + str(len(prompt)))
    # 時間計測開始
    start = time.time()
    
    token_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
    
    with torch.no_grad():
        output_ids = model.generate(
            token_ids.to(model.device),
            do_sample=True,
            max_new_tokens=128,
            temperature=0.7,
            pad_token_id=tokenizer.pad_token_id,
            bos_token_id=tokenizer.bos_token_id,
            eos_token_id=tokenizer.eos_token_id
            )
    output = tokenizer.decode(output_ids.tolist()[0][token_ids.size(1):])
    output = output.replace("<NL>", "\n")
    
    # 時間表示
    end = time.time()
    print(end-start)
    print(output)
    prompt = prompt+output+"<NL>"
    return output

## Rinnaを動かす部分ここまで

## ここから先は、WebSocketのサーバー部分

# Called for every client connecting (after handshake)
def new_client(client, server):
    print("New client connected and was given id %d" % client['id'])
    server.send_message_to_all("Hey all, a new client has joined us")

# Called for every client disconnecting
def client_left(client, server):
    print("Client(%d) disconnected" % client['id'])

# Called when a client sends a message
def message_received(client, server, message):
    if len(message) > 200:
        message = message[:200]+'..'
    print("Client(%d) said: %s" % (client['id'], message))
    rinna_message = rinna_start(message)
    server.send_message(client,rinna_message)

PORT=9001
server = WebsocketServer(port = PORT)
server.set_fn_new_client(new_client)
server.set_fn_client_left(client_left)
server.set_fn_message_received(message_received)
server.run_forever()

UE側のClient

次は、UEのWebSocketクライアント部分です。

C＋＋実装などもありましたが、今回はできるだけ簡単に試したいのでPluginを使っていきます。

使うPlugin
- BluePrintWebSockets
- https://github.com/minimpoun/BlueprintWebsockets
対応バージョン
- Simple Blueprint Websocket plugin for Unreal Engine 4
- Unreal Engine 5 support
  ⇒ 5.2対応はまだみたいなので、リビルドが必要となります。