はじめまして。NTTドコモ サービスイノベーション部の西岡竜生です。 普段はデータサイエンティストとして、主に映像配信サービスなどのエンタメ領域における生成AIを活用した業務効率化やコンテンツ推薦の価値向上に取り組んでいます。 本記事では、エンタメコンテンツに対するRAGの課題に対し、市中技術を適用した検証結果をまとめます。
はじめに
突然ですが、映画ファンの間で毎年のように繰り返される論争があります。それが、
「『ダイ・ハード』はクリスマス映画なのか?」
舞台はクリスマスの夜、BGMもクリスマスソングですが、内容はテロリストとの激しい銃撃戦を描いたアクション映画です。 さて、あなたは映像サービスの運営者で、「クリスマス」をテーマとした映画特集として推薦する映画を探しています。 「ダイ・ハード」は推薦に含めるべきでしょうか?
「クリスマスが舞台だからクリスマス映画だ」という意見もあれば、「クリスマスのムードには合わない」という意見もあるでしょう。 ここで重要になるのは、「AIがこの違いを理解し、意図通りに出し分けられるか(制御できるか)」という点です。
本記事では、この「ダイ・ハード問題」を題材に、エンタメ領域のRAG(検索拡張生成)における課題と「データ」と「クエリ」の工夫による精度向上を実験を通じて確認します。

1. 映画推薦におけるRAGの必要性と課題
なぜLLM単体ではなくRAGが必要なのか
そもそも映画を推薦するだけならChatGPTのようなLLMに直接聞けば良いと思われるかもしれません。 実際、「おすすめのクリスマス映画を教えて」と聞けばLLMは流暢に答えてくれます。
一般的なLLMの回答例:
### 定番のクリスマス映画
ホーム・アローン(Home Alone)
- 家族で楽しめるコメディ。クリスマス休暇に家族に置いていかれた少年が泥棒を撃退する痛快ストーリー。
ラブ・アクチュアリー(Love Actually)
- ロンドンを舞台に、クリスマス前後の人々の恋愛模様を描いた群像劇。ロマンティックな気分に浸りたい方におすすめ。
---
### ちょっと変わったクリスマス映画
- ダイ・ハード(Die Hard)
- クリスマスイブに起こるアクション映画。クリスマス映画としても根強い人気。
LLMはダイ・ハードをクリスマス映画として捉えていますね。その上で定番のクリスマス映画とは分けて提案しており、十分良い回答に思えます。 しかし、実際の映像配信サービス運営においては、これでは問題があります。なぜなら、提案されたコンテンツがサービス上で配信されているか分からないからです。
ビジネスとして映像配信を行う以上、「サービス上で配信権を持つ作品」の中から提案する必要があります。そのため、外部データベース(配信コンテンツのメタ情報)を参照して回答を生成する RAG(Retrieval-Augmented Generation) の構成が不可欠です。 また、実在しない映画の生成や、実在するが内容が違うといったハルシネーションを防ぐ点でも、RAGが必要となってきます。
RAGで実装する場合の課題
しかし、RAGを構築するとなると別の課題が出てきます。 当然ながら、数万件に及ぶコンテンツのメタ情報を全てプロンプトに与えるわけにはいかないので、ユーザの入力をもとに、該当するコンテンツを検索して絞り込む必要があります。 そのため、回答精度を上げるためには検索フェーズでどれだけ適切なコンテンツを引けるかが鍵となります。
しかし、単純に「クリスマス」というクエリで検索を行うと、あらすじにその単語が含まれる作品が無差別にヒットしてしまうのです。 その結果、検索結果には次のような作品が混在します。
- 『34丁目の奇跡』(感動・ファミリー)
- 『ダイ・ハード』(暴力・アクション)
- 『クランプス』(恐怖・ホラー)
- 『戦場のメリークリスマス』(戦争・ドラマ)
多様性があると言えば聞こえはいいですが、映像配信サービスの視聴者から見れば「テーマがブレていて価値がわかりづらい特集」です。 特に「クリスマス」のようなイベントにおいては、視聴者は「そのイベントにふさわしい体験(ムード)」を期待するでしょう。
このとき、システムが「クリスマスという単語が入っているから」という理由だけでホラーや戦争映画を混ぜてしまうと、ユーザーの期待値とのミスマッチ(検索ノイズ)となり、離脱の原因になります。
ここで、エンタメ特有の壁が立ちはだかります。
- メタ情報に保存されているあらすじはマーケティング向けであるため、ネタバレを避けるため作品全体を通したムードが分かりづらく、視聴意欲を煽るような表現がノイズとなる
- ベクトル検索の際にキーワードに引っ張られてムードを捉えづらい
この2つの課題に対し、情報検索分野で知られる 「Document Expansion(文書拡張)」 と RAGの検索精度向上手法の1つである「HyDE(Hypothetical Document Embeddings)」 の効果を検証しました。
2. 実験設定
2通りの文書作成方法(ベースライン/文書拡張)と3通りのクエリ生成方法(ベースライン/簡易的なクエリ生成/HyDE)の合計6通りで実験を行います。
目的
多様性を否定するわけではありません。しかし、今回の「『クリスマス』をテーマとした映画特集として推薦したい」というユースケースにおいては、ムードの統一性が重要な要件となります。
ダイ・ハードも素晴らしい作品ですが、今回の実験ではクリスマスらしい「心温まる」といったようなムードの映画に統一するため、該当する映画がベクトル検索結果の上位に現れることを目的とします。
「クリスマス」という入力に対し、ベクトル検索結果の上位5件において、クリスマスらしいムードに合致した作品が抽出されるかを確認します。
データセット
実在のタイトルをもとに、Google Geminiを使用して下記の25件の映画データを作成しました。実験用として、以下の特徴を持つ作品を含めています。
- 1. キーワード一致 × ムード一致
- 例:『34丁目の奇跡』、『ラブ・アクチュアリー』
- クリスマスを舞台とした心温まるファミリー/ロマンスストーリー。本実験における正例となる作品。
- 2. キーワード一致 × ムード不一致
- 例:『ダイ・ハード』、『クランプス 魔物の儀式』
- クリスマスが舞台ではあるが、期待されるムードからは外れる作品。本実験では負例として扱う。
- 3. キーワード不一致 × ムード一致
- 例:『マイ・インターン』、『アバウト・タイム 〜愛おしい時間について〜』
- クリスマスが舞台ではないが、クリスマスに期待されるムードがある作品。本実験では負例として扱うが、「準正例」に位置付けられる作品。
- 4. キーワード不一致 × ムード不一致
- 例:『マッドマックス 怒りのデス・ロード』、『ミッドサマー』
- クリスマスとも無関係で、ムードも異なる作品。これらが検索結果に混ざらないことは最低条件です。
| ID | タイトル | ジャンル | あらすじ |
|---|---|---|---|
| 1 | ホリデイ | ロマンス/コメディ | 恋に破れた歌姫とキャリアウーマン。人生の休息(ホリデイ)が必要な二人が選んだのは、地球の反対側へ「家を交換」する無謀な旅だった!?ロンドンとL.A.、最悪のクリスマスが最高の奇跡に変わる瞬間。キャメロン・ディアス×ジュード・ロウら豪華共演で贈る、冬のロマンティック・コメディの決定版! |
| 2 | ラブ・アクチュアリー | ロマンス/ドラマ | クリスマス目前のロンドン、19人の男女が織りなす「愛」のアンサンブル。英国首相の片思いから、落ちぶれたロックスターの起死回生まで、すべての物語が聖夜に向かって加速する!「愛はどこにでもある」——見終わった後、誰かに電話したくなる、世界中が恋した至福のラブストーリー。 |
| 3 | 34丁目の奇跡 | ファミリー/ドラマ | 「私はサンタクロースだ」——NYのデパートに現れた謎の老人は、本物か、それとも妄想か?夢を忘れた少女と、現実主義のママ、そして彼を弁護する若き弁護士。前代未聞の「サンタ実在証明裁判」が今、開廷する!信じる勇気が奇跡を起こす、全米が泣いたハートフル・クリスマス・クラシック。 |
続きを表示
| ID | タイトル | ジャンル | あらすじ |
|---|---|---|---|
| 4 | 素晴らしき哉、人生! | ドラマ/ファンタジー | 聖夜に絶望し、川に身を投げようとした男。彼を救ったのは「翼のない二流天使」だった!?天使が見せたのは、彼が存在しなかった場合の「恐るべき世界」。生きる意味とは?幸せとは?フランク・キャプラ監督が贈る、人生への賛歌。クリスマス映画の金字塔にして、永遠のマスターピース。 |
| 5 | 天使のくれた時間 | ドラマ/ファンタジー/ロマンス | ウォール街の成功者として独身を謳歌するジャック。クリスマスの朝、目覚めるとそこは、かつて別れた恋人と結婚し、タイヤセールスマンとして生きる「もう一つの人生」だった——。富か、愛か。ニコラス・ケイジが贈る、大人のためのファンタジー。「もしも」の世界で見つけた、本当に大切なものとは? |
| 6 | ダイ・ハード | アクション/スリラー | 街中がクリスマス・ムードに包まれる聖なる夜。ロサンゼルスへやってきたジョン・マクレーンは、別居中の妻と愛する子供たちと過ごす「最高のクリスマス」を心待ちにしていた。華やかなクリスマス・パーティー、ツリーの下のプレゼント、そして家族との温かい再会……。しかし、幸せなクリスマス・イブは突如として武装集団に奪われる!聖夜の奇跡を信じ、家族の絆を取り戻すため、男はたった一人で戦場へと向かう。果たして彼は、無事に「メリー・クリスマス」と言えるのか!? |
| 7 | グレムリン | ホラー/コメディ | パパがチャイナタウンで買ってきたクリスマスプレゼント。それは、歌うのが大好きな不思議な生き物「モグワイ」。でも気をつけて、彼を飼うには「3つの約束」があるの。それを破った時、可愛いペットは凶悪な怪物へと変貌する!スティーヴン・スピルバーグ製作、街中が大パニックに陥るSFブラック・ファンタジー! |
| 8 | バッド・サンタ | コメディ/犯罪 | そのサンタ、要注意!酒浸り、女好き、子供嫌い。デパートのサンタの正体は、金庫破りの強盗犯だった!?そんな史上最低のサンタに、純粋すぎるいじめられっ子の少年が懐いてしまい……。聖夜の常識をぶち壊す、放送ギリギリの痛快ブラック・コメディ。良い子は絶対に見ないでください! |
| 9 | バットマン リターンズ | アクション/スーパーヒーロー | 雪降るゴッサム・シティに、クリスマスの悪夢が舞い降りる。下水道から現れた怪人ペンギンと、復讐に燃える美しき怪盗キャットウーマン。ティム・バートン監督が描く、最もゴシックで哀しいダークヒーローの物語。仮面の下の涙を、君は見ることができるか——。 |
| 10 | クランプス 魔物の儀式 | ホラー/ファンタジー | 今年のクリスマスは、何かがおかしい。親戚との争いに絶望し、少年が「信じる心」を捨てた時、サンタの影「クランプス」が目覚める!猛吹雪の中、家に閉じ込められた家族を襲う、不気味なおもちゃと魔物たち。聖夜を祝わない悪い子には、戦慄のお仕置きが待っている……。 |
| 11 | 戦場のメリークリスマス | ドラマ/戦争 | 1942年、ジャワ島。極限状態の捕虜収容所で交錯する、男たちのプライドと魂のぶつかり合い。デヴィッド・ボウイ×坂本龍一×ビートたけし、異色の豪華キャストが競演。東洋と西洋、規律と情熱。そしてクリスマスの夜、奇跡のような一瞬の交流が生まれる——。カンヌを震撼させた、魂を揺さぶる不朽の名作。 |
| 12 | アイズ ワイド シャット | ミステリー/ドラマ | クリスマスのネオン輝くNY。ある夜、妻からの衝撃的な告白に動揺した医師は、夜の街へと彷徨い出る。嫉妬、欲望、そして辿り着いた謎の仮面舞踏会……。巨匠スタンリー・キューブリックの遺作にして最高傑作。トム・クルーズ×ニコール・キッドマン共演で描く、愛と性の深淵なるサスペンス。 |
| 13 | アバウト・タイム 〜愛おしい時間について〜 | ロマンス/SF | 「過去に戻れる」能力を持った青年が、恋人のために何度もタイムトラベル!?失敗してはやり直し、最高のプロポーズを目指すが、やがて彼は「変えられない運命」と「平凡な一日の尊さ」に気づいていく……。『ラブ・アクチュアリー』の監督が贈る、今日という日を抱きしめたくなる、涙と笑顔の感動作。 |
| 14 | マイ・インターン | ドラマ/コメディ | ファッションサイトの若き女社長の元にやってきたのは、なんと70歳のシニア・インターン!PCも使えない彼に最初はイライラしていたジュールズだが、彼の紳士的な振る舞いと的確なアドバイスに、次第に心を救われていく。ロバート・デ・ニーロ×アン・ハサウェイ、世代を超えた友情に心が温まるサクセス・ストーリー。 |
| 15 | パディントン | ファミリー/アドベンチャー | ロンドンへようこそ!真っ赤な帽子を被った、紳士なクマのパディントン。ブラウン一家にお世話になることになったが、初めての都会暮らしはドタバタの連続!?おっちょこちょいだけど、誰よりも純粋な彼が、冷え切った家族の絆を温かく変えていく。見れば誰もがハッピーになる、奇跡のモフモフ・ムービー! |
| 16 | ワンダー 君は太陽 | ドラマ | 全世界で800万人が涙したベストセラーを実写化。「普通」とは違う顔で生まれた少年オギー。10歳で初めて学校へ通うことになった彼を待っていたのは、偏見やいじめ、そして——。彼の勇気が、クラスメイトを、家族を、そして学校中を変えていく。ハンカチ必須、魂を震わせる感動のトゥルーストーリー。 |
| 17 | アメリ | ロマンス/コメディ | パリ、モンマルトル。空想好きなアメリの趣味は、周りの人をこっそり幸せにする「悪戯」を仕掛けること。でも、自分の恋には超オクテ。そんなある日、不思議な青年ニノと出会い、アメリの日常は色鮮やかに輝き出す!フランス映画No.1ヒット、とびきりキュートでポップなパリジャン・ラブストーリー。 |
| 18 | ニュー・シネマ・パラダイス | ドラマ | シチリア島の小さな村。少年トトの遊び場は、村唯一の映画館だった。盲目の映写技師アルフレードとの年齢を超えた友情、初恋の痛み、そして映画への愛……。エンニオ・モリコーネの旋律に乗せて描く、映画史に残る珠玉の感動作。ラストシーン、大人になったトトに届いた「形見」に、世界中が涙した。 |
| 19 | 最強のふたり | ドラマ/コメディ | 車椅子生活の大富豪と、スラム出身の黒人青年。共通点はゼロ、相性も最悪。でも、偽善も同情もない「本音」の付き合いが、いつしか二人を最強の友に変えていく!フランス歴代興収No.1を記録した、笑って泣ける実話。人生は、こんなにも予測不可能で面白い! |
| 20 | マンマ・ミーア! | ミュージカル/コメディ/ロマンス | 輝く太陽、青いエーゲ海!結婚式前日、ソフィが招待したのは……ママの元カレ3人!?「パパと一緒にバージンロードを歩きたい」——その願いは、島中を巻き込む大騒動に発展!ABBAの大ヒットナンバーに乗せて贈る、歌って踊れる最高のウエディング・パーティー・ムービー! |
| 21 | マッドマックス 怒りのデス・ロード | アクション/SF | 世界が熱狂!アドレナリン全開のノンストップ・カーチェイス!!石油も水も尽きかけた荒廃した世界で、元警官マックスと反逆の女戦士フュリオサが、独裁者に立ち向かう。爆音、砂塵、改造車!CG極小のリアル・スタントが脳天を直撃する、21世紀最高のアクション超大作! |
| 22 | シャイニング | ホラー/スリラー | 冬の閉鎖されたホテル。そこは、かつて惨劇が起きた呪われた場所だった。管理人として訪れたジャックと家族を、静寂と狂気が蝕んでいく……。双子の少女、血の海、そして「REDRUM」の謎。ジャック・ニコルソン怪演、スタンリー・キューブリックが放つ、映画史に刻まれた戦慄のサイコ・ホラー。 |
| 23 | ジョーズ | スリラー/アドベンチャー | 海に行くのが怖くなる!平和なビーチを襲う、巨大な人喰いザメの恐怖。警察署長、海洋学者、荒くれ者の漁師。男3人、沈みそうなボートで怪物に挑む!スティーヴン・スピルバーグの名を世界に轟かせた、パニック映画の原点にして頂点。あのテーマ曲が聞こえたら、もう逃げられない……。 |
| 24 | ダークナイト | アクション/犯罪 | なぜ、これほどまでに悪のカリスマに惹かれるのか。ゴッサム・シティに現れた最凶の犯罪者ジョーカー。彼は「計画」を持たず、ただ世界が燃えるのを見て楽しむ……。バットマンに突きつけられる、正義の限界。ヒース・レジャーがアカデミー賞を受賞した、ヒーロー映画の常識を覆す衝撃作。 |
| 25 | ミッドサマー | ホラー/ミステリー | 明るいのに、怖い。スウェーデンの奥地、90年に一度の祝祭。大学生グループが訪れたその村は、美しい花々と笑顔に満ちた「楽園」のはずだった……。白夜の下で繰り広げられる、狂気の儀式。一度入ったら二度と出られない、新感覚のフェスティバル・スリラー。ハッピーエンドか、バッドエンドか、それはあなた次第。 |
文書作成
次の2つの手法でメタ情報を表す文書を作成し、検索結果を比較します。
ベースライン: 下記の形式でメタ情報をベクトル化
ダイ・ハードの例:
タイトル:ダイ・ハード
ジャンル:アクション/スリラー
あらすじ:街中がクリスマス・ムードに包まれる聖なる夜。ロサンゼルスへやってきたジョン・マクレーンは、別居中の妻と愛する子供たちと過ごす「最高のクリスマス」を心待ちにしていた。華やかなクリスマス・パーティー、ツリーの下のプレゼント、そして家族との温かい再会……。しかし、幸せなクリスマス・イブは突如として武装集団に奪われる!聖夜の奇跡を信じ、家族の絆を取り戻すため、男はたった一人で戦場へと向かう。果たして彼は、無事に「メリー・クリスマス」と言えるのか!?
文書拡張: 情報検索分野における文書拡張を応用します。 文書拡張とは、既存の文書に対して言い換えや情報・文脈の追加を行うことで、検索エンジンやAIによる文章理解の精度を高める手法です。 本実験では、マーケティング用のあらすじに対し、LLMを用いて「ムード」や「ターゲット」などの不足情報を補完し、ベクトル検索に適した文章に変換しています。
ダイ・ハードの例:
タイトル:ダイ・ハード
ジャンル:アクション/スリラー
あらすじ:クリスマスの夜、ロサンゼルスで家族と再会を果たそうとする主人公ジョン・マクレーンが、武装集団による襲撃に巻き込まれ、孤独な戦いを繰り広げる。物語は平和な期待から一転、緊迫したアクションとサスペンスが展開し、最後には家族の絆と希望が描かれる。トーンはシリアスかつスリリングで、時折ユーモアも交えながら緊張感が持続する。家族や友人と一緒に、クリスマスや年末の特別な夜に観るのに適している。ターゲットはアクション映画好きや家族愛を重視する大人層。潜在的なテーマは、家族の絆、勇気、困難に立ち向かう強さ、そして奇跡への信念。
クエリの生成手法
次の3つの手法でクエリを生成し、検索結果を比較します。
ベースライン: 入力
'クリスマス'をそのままベクトル化して検索します。簡易クエリ生成: LLMを用いて、入力から連想されるキーワードへ拡張します。
例:
'クリスマス映画', '家族で楽しめる', 'ロマンチック'
- HyDE (Hypothetical Document Embeddings): LLMに「仮想的な文書(Hypothetical Document)」を生成させ、そのベクトルを使って検索を行う手法です。今回は「ユーザーが求めているであろう理想的な映画のメタ情報」を生成させています。
生成された仮想文書:
タイトル:雪降る夜の贈り物。
ジャンル:ファミリー/ファンタジー
あらすじ:クリスマスイブに家族と離れて過ごすことになった少女が、不思議な雪だるまと出会い、心温まる冒険を通じて家族の大切さを再発見する。感動と優しさに包まれたムードで、家族や子ども向け。潜在テーマは絆と希望。
3. 結果と考察
結果
「クリスマス」と入力した際の、上位5件の検索結果(タイトルおよび文書とクエリのコサイン類似度)です。
| クエリ \ ドキュメント | ベースライン | 文書拡張 |
|---|---|---|
| ベースライン | 1. クランプス (0.3985) 2. ダイ・ハード (0.3868) 3. 戦場のメリークリスマス (0.3536) 4. 34丁目の奇跡 (0.3459) 5. バッド・サンタ (0.3141) |
1. クランプス (0.3432) 2. 34丁目の奇跡 (0.3385) 3. ホリデイ (0.3300) 4. ダイ・ハード (0.3229) 5. 戦場 (0.3226) |
| 簡易クエリ | 1. ラブ・アクチュアリー (0.5505) 2. 34丁目の奇跡 (0.5206) 3. ダイ・ハード (0.5167) 4. 天使のくれた時間 (0.4936) 5. バッド・サンタ (0.4780) |
1. ラブ・アクチュアリー (0.5516) 2. 34丁目の奇跡 (0.5132) 3. バッド・サンタ (0.5020) 4. ホリデイ (0.4900) 5. クランプス (0.4881) |
| HyDE | 1. 34丁目の奇跡 (0.6454) 2. ラブ・アクチュアリー (0.6304) 3. バッド・サンタ (0.6113) 4. クランプス (0.6085) 5. 天使のくれた時間 (0.5705) |
1. 天使のくれた時間 (0.7067) 2. 34丁目の奇跡 (0.6964) 3. 素晴らしき哉、人生! (0.6957) 4. ラブ・アクチュアリー (0.6612) 5. ホリデイ (0.6567) |
結果の分析
- ベースライン × ベースライン(左上): 『クランプス』(ホラー)や『ダイ・ハード』(アクション)が上位に出現しています。バッドサンタ(コメディ/犯罪)もクリスマスコメディではありますが、下品なジョークやブラックユーモアが多く、クリスマスムードには合いそうにないです。類似度スコアも全体的に低い水準となっています。ドキュメントとクエリ双方で「クリスマス」というキーワードの影響を強く受けた結果、ムードを捉えられていないことが確認できます。
- ベースライン × 文書拡張(右上): 文書側でムード情報が補完されたことで、ホラーやアクションの順位が下がりました。特に『ダイ・ハード』のスコアは0.3868から0.3229へ低下しており、文書拡張がキーワードによる影響の低減に貢献したことが確認できます。しかし、クエリが「クリスマス」のみであるため、ムードの方向性を絞りきれていません。
- 簡易クエリ × ベースライン(左中): クエリを「家族」「ロマンチック」といったキーワードで拡張したことで、上位にロマンス/ファミリー系が浮上しました。ムードの方向性が追加されたため類似度スコアも全体的に上昇しましたが、『ダイ・ハード』の類似度(0.5167)も依然として高く、ノイズの残りが確認されます。
- 簡易クエリ × 文書拡張(右中): 簡易クエリ×ベースライン(左中)と同様に、ロマンス/ファミリー系が上位に浮上していますが、文書拡張の効果は小さいです。文書拡張によってノイズが除去されてムードを捉えやすくなった一方、クエリによるムードの決定力が十分でないことが伺えます。
- HyDE × ベースライン(左下): クエリにHyDEを適用したことで、ロマンス/ファミリー系(『ラブ・アクチュアリー』、『34丁目の奇跡』)の類似度スコアが大きく上昇し、元のあらすじのノイズ(煽り文句)をある程度乗り越えてムードを捉えれていることが確認できます。しかし、ドキュメント側のノイズ除去が不十分なため、『クランプス』も依然として4位(0.6085)に残存しています。
- HyDE × 文書拡張(右下): 『34丁目の奇跡』『ラブ・アクチュアリー』『素晴らしき哉、人生!』といった、一般的にクリスマス映画として想起される作品が上位を独占し、類似度も大きく上昇しました。HyDEによる理想のムードの決定と文書拡張によるが共に効いていることが確認できます。
考察
文書拡張の効果:ノイズ除去とムードの顕在化
ベースラインのあらすじはマーケティングや広告要素がノイズとなり、検索に必要なムードが捉えづらくなっていました。 LLMを用いて客観的な表現に書き換えた上で文脈情報を追加することで、記号(!や..., --など)や感情的な表現を抑えつつ作品の持つムードが顕在化されたため、キーワードの影響の抑制とムードによる類似度検索の精度向上に寄与したと考えられます。
HyDEの効果:入力の意図の具体化
HyDEは、本来の入力(「クリスマス」)の背後にある暗黙的な意図(この場合、「心温まる、ロマンチックな体験」)を、具体的な仮想文書として言語化します。
RAGの類似度計算では一般にコサイン類似度が用いられ、これはベクトルの方向(意味やムード)の一致度を測ります。HyDEはこのムードの方向性を強力に補正するため、ベースラインの文書(左下)でもスコアを0.60台まで引き上げることができました。
これは、簡易クエリ生成(Simple)と比較すると顕著です。簡易クエリが単なるキーワードの羅列で入力の意味を拡張するのに対し、HyDEは「理想の物語の文脈」で入力の意図を具体化します。その結果、HyDEはムードの方向性を定める上で、キーワードベースの拡張よりも強力であることが示されています。
文書拡張とHyDEの相互作用
最も理想的な結果を生んだ右下のパターン(HyDE × 文書拡張)は、この二つの技術が相乗的に働いた結果です。 文書拡張によってムードが顕在化しても単純なクエリではキーワードの影響を抑制しきれず、顕在化したムードを活用することもできません。また、HyDEにより理想のムードを決定したとしても作品のムードが顕在化されていなければ適切な文書を引くことができません。
この「文脈の顕在化」と「意図の具体化」という相互作用こそが、単一の工夫では達成できない、データとクエリ両面からの戦略的なRAG実装の有効性を証明しています。
おわりに
本記事では、エンタメ領域のRAGにおける「キーワードとムードの制御」という課題に対する文書拡張とHyDEの有効性を確認しました。
結果として、「配信可能なコンテンツのみ」を対象に「ムードが統一された」作品を推薦することに成功しました。
重要なのは、これが「ダイ・ハードの排除」ではなく「意図の制御」である点です。 もし「アクションが見たい」という意図がある場合には、HyDEの生成プロンプトや検索結果の評価方法を調整することで、逆に『ダイ・ハード』を1位にすることも可能です。
この記事を読んでいただき、少しでも皆様のご参考となれば幸いです。