要約
大規模言語モデル (LLM) は、ダウンストリーム ドメインに広く適用されています。
ただし、金融投資や法律 QA など、一か八かの分野のタスクに対する現在の LLM は、通常、推論プロセスや説明なしで簡潔な回答を生成します。
これにより、ユーザーが自分の応答に基づいて意思決定を行う自信が制限されます。
オリジナルの CoT は有望ですが、推論中の自己修正メカニズムが欠けています。
この研究では、Domain$o1$s を導入しました。これは、教師付き微調整とツリー検索を通じて、ドメイン タスクに関する LLM の推論機能を強化します。
私たちは、判断に基づいてドメイン固有の推論ステップをアクティブにするモデルを微調整するために、CoT-stock-2k および CoT-legal-2k データセットを構築します。
さらに、ソリューション空間を自発的に探索し、最適な推論パスをサンプリングしてパフォーマンスを向上させる、選択的ツリー探索を提案します。
また、ドメイン モデルの説明可能性を評価するための新しい指標である PROOF-Score も導入し、より豊富な評価次元で従来の精度指標を補完します。
株式投資の推奨と法的推論の QA タスクに関する広範な実験により、Domaino1s の優れたパフォーマンスと説明可能性が実証されています。
私たちのコードは https://anonymous.4open.science/r/Domaino1s-006F/ で入手できます。
要約(オリジナル)
Large Language Models (LLMs) are widely applied to downstream domains. However, current LLMs for high-stakes domain tasks, such as financial investment and legal QA, typically generate brief answers without reasoning processes and explanations. This limits users’ confidence in making decisions based on their responses. While original CoT shows promise, it lacks self-correction mechanisms during reasoning. This work introduces Domain$o1$s, which enhances LLMs’ reasoning capabilities on domain tasks through supervised fine-tuning and tree search. We construct CoT-stock-2k and CoT-legal-2k datasets for fine-tuning models that activate domain-specific reasoning steps based on their judgment. Additionally, we propose Selective Tree Exploration to spontaneously explore solution spaces and sample optimal reasoning paths to improve performance. We also introduce PROOF-Score, a new metric for evaluating domain models’ explainability, complementing traditional accuracy metrics with richer assessment dimensions. Extensive experiments on stock investment recommendation and legal reasoning QA tasks demonstrate Domaino1s’s leading performance and explainability. Our code is available at https://anonymous.4open.science/r/Domaino1s-006F/.
arxiv情報
著者 | Xu Chu,Zhijie Tan,Hanlin Xue,Guanyu Wang,Tong Mo,Weiping Li |
発行日 | 2025-01-24 11:57:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google