TL;DR

はじめに

NTTドコモクロステック開発部鈴木明作です！

2025年3月10日（月）〜14日（金）に開催されていた言語処理学会第31回年次大会(NLP2025)におけるワークショップとして「大規模言語モデルのファインチューニング技術と評価」が開催されました。

このワークショップでは、大規模言語モデル（LLM）の「ファインチューニング技術と評価」に焦点を当てており、「安全性タスク」と「数学タスク」の2つのコンペが開催されたため、それぞれの上位3チームの解法を紹介します。

MATHデータセット(米国の高校数学コンテストで出題された問題に基づく、代数学、幾何学、確率など幅広い単元をカバーしたデータセット) の日本語翻訳データでの正解率を競う。
解答と正解のそれぞれに正規化処理（空白除去、括弧サイズ指定除去など）を施し、結果が一致すれば正答とみなす。

安全性タスク＆数学タスクにおいて、上位3チームは以下の結果となったようです。

本題となる「安全性タスク」、「数学タスク」における上位3チームの解法の紹介します。

上位3チームの解法は概要（箇条書き）と、解法の特徴と感じたスライドを抜粋して記載します。

ベースラインモデルの推論結果を分析した結果、「ボーダーライン」での回答に着目
公開データと自作データを組み合わせて、ボーダーラインでの回答（QA）、回答具体性QAを作成して、SFT(Supervised Fine-Tuning)、DPOでの学習
モデル評価では、モデル間であまり差がつかないことでモデルの評価が難しかったため、「低得点区間をまとめて、高得点区間を細分化する」、「テストデータの質問を、回答に差がつくような難しい質問」にするなどを行なって、最適なモデルを選定
最終的には絶対評価ではなく、選択式の相対評価（gpt4oにどちらのモデルの回答が優れた回答かを選択してもらう）を実施し、提出モデルを決定

まず、ChatGPTでMATHデータセットを日本語に翻訳
問題とQwen2.5-Math-7B-instructの推論結果を埋め込んだRefineプロンプトを用意して、Qwenの解答を参考にして正しい答えを出力できるようにllm-jp-3-13b-instruct3をファインチューニング(LoRA)
refineプロンプトである「あなたが前回出力した回答、コンテキスト、回答」とすることで精度向上
提案手法に至った経緯として、最初に蒸留や、RAGを試行錯誤した後に、refineプロンプトに行き着いた

2段階のファインチューニング。以下の2段階でのファインチューニング
- 1st stage. CoTモデルでファインチューニング
- 2nd stage. その後にTIRデータセットでファインチューニング
kaggle のAI Mathematical Olympiad –Progress Prize1の優勝チーム解法であるTIR（Tool-Integrated Reasoning）を利用
TIRにより、LLMが直接回答するのではなく、生成したPythonコードを実行したアウトプットを含めて回答を出力