要約
ユーザーがチャットボットに頻繁に質問するようになり、大規模言語モデル(LLM)の利用が大幅に増加している。情報に容易にアクセスできる時代において、人間の認知能力を刺激し、強固な推論能力を維持することは極めて重要である。本稿では、直接的な回答の代替または補足としてヒントの利用を促進することで、このような課題に取り組む。まず、ウィキペディアをベースとし、1,000の質問に対して作成された5,000のヒントを含む、手作業で構築されたヒントデータセットWikiHintを紹介する。次に、LLaMA-3.1のようなオープンソースのLLMを、答えを意識した文脈や答えを無視した文脈でのヒント生成のために微調整する。また、ヒントを利用した場合と利用しない場合のヒントの有効性を評価する。さらに、ヒントを評価し、ランク付けするための軽量な評価手法であるHintRankを導入する。その結果、(a)データセットはより効果的なヒントを生成するのに役立つこと、(b)質問とともに回答情報を含めると、生成されるヒントの品質が一般的に向上すること、(c)エンコーダベースのモデルはデコーダベースのモデルよりもヒントのランク付けにおいて優れた性能を発揮することが示された。
要約(オリジナル)
The use of Large Language Models (LLMs) has increased significantly with users frequently asking questions to chatbots. In the time when information is readily accessible, it is crucial to stimulate and preserve human cognitive abilities and maintain strong reasoning skills. This paper addresses such challenges by promoting the use of hints as an alternative or a supplement to direct answers. We first introduce a manually constructed hint dataset, WikiHint, which is based on Wikipedia and includes 5,000 hints created for 1,000 questions. We then finetune open-source LLMs such as LLaMA-3.1 for hint generation in answer-aware and answeragnostic contexts. We assess the effectiveness of the hints with human participants who answer questions with and without the aid of hints. Additionally, we introduce a lightweight evaluation method, HintRank, to evaluate and rank hints in both answeraware and answer-agnostic settings. Our findings show that (a) the dataset helps generate more effective hints, (b) including answer information along with questions generally improves quality of generated hints, and (c) encoder-based models perform better than decoder-based models in hint ranking.
arxiv情報
著者 | Jamshid Mozafari,Florian Gerhold,Adam Jatowt |
発行日 | 2025-02-02 16:34:25+00:00 |
arxivサイト | arxiv_id(pdf) |