Unraveling Arithmetic in Large Language Models: The Role of Algebraic Structures

要約

大規模な言語モデル(LLMS)の推論能力は、チェーンオブ考え(COT)プロンプトで改善され、モデルが複雑なタスクを段階的に解決できるようになりました。
ただし、COT機能をトレーニングするには、詳細な推論データが必要であり、しばしば不足しています。
独学の推論(STAR)フレームワークは、強化学習を使用して推論ステップを自動的に生成し、人間標識データへの依存を減らすことにより、これに対処します。
Starとそのバリエーションは経験的な成功を実証していますが、これらの改善を説明する理論的基盤は不足しています。
大規模な言語モデル(LLM)は、主に思考の連鎖(COT)プロンプトによって駆動される顕著な数学的能力を実証しており、複雑な推論を段階的なソリューションに分解します。
ただし、COTの単一のステップで算術を実行するLLMSの能力の根底にあるメカニズムは、よく理解されていないままです。
この作業では、LLMSが通勤やアイデンティティの特性などの代数構造をキャプチャすることにより、算術を学習することを提案します。
これらの構造は、入出力関係を通じて観察可能であるため、目に見えないデータに一般化できます。
LLMSは、算術問題のカスタムデータセットを使用して代数構造を学習できることを経験的に実証し、重みとバイアスの特定の構成の下で、トランスベースのLLMが入力トークンの順列とアイデンティティ要素の存在の両方に不変のままであることを示す理論的証拠を提供します。
私たちの調査結果は、代数構造を活用することでLLMSの算術能力を高め、算術性能の向上に関する洞察を提供できることを示しています。

要約(オリジナル)

The reasoning abilities of large language models (LLMs) have improved with chain-of-thought (CoT) prompting, allowing models to solve complex tasks stepwise. However, training CoT capabilities requires detailed reasoning data, which is often scarce. The self-taught reasoner (STaR) framework addresses this by using reinforcement learning to automatically generate reasoning steps, reducing reliance on human-labeled data. Although STaR and its variants have demonstrated empirical success, a theoretical foundation explaining these improvements is lacking. Large language models (LLMs) have demonstrated remarkable mathematical capabilities, largely driven by chain-of-thought (CoT) prompting, which decomposes complex reasoning into step-by-step solutions. However, the mechanisms underlying LLMs’ ability to perform arithmetic in a single step of CoT remain poorly understood. In this work, we propose that LLMs learn arithmetic by capturing algebraic structures, such as commutativity and identity properties. Since these structures are observable through input-output relationships, they can generalize to unseen data. We empirically demonstrate that LLMs can learn algebraic structures using a custom dataset of arithmetic problems, as well as providing theoretical evidence showing that, under specific configurations of weights and biases, the transformer-based LLMs can generate embeddings that remain invariant to both permutations of input tokens and the presence of identity elements. Our findings indicate that leveraging algebraic structures can enhance the LLMs’ arithmetic capabilities, offering insights into improving their arithmetic performance.

arxiv情報

著者 Fu-Chieh Chang,You-Chen Lin,Pei-Yuan Wu
発行日 2025-04-08 15:19:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Unraveling Arithmetic in Large Language Models: The Role of Algebraic Structures はコメントを受け付けていません

Assessing how hyperparameters impact Large Language Models’ sarcasm detection performance

要約

皮肉の検出は、人間と機械の両方にとって困難です。
この作業では、モデルの特性がOpenaiのGPTの皮肉検出にどのように影響し、MetaのLlama-2モデルが強い自然言語の理解と人気を与えられていることを探ります。
さまざまなサイズ、リリース、およびハイパーパラメーターにわたる微調整モデルとゼロショットモデルを評価します。
実験は、人気のある自己注釈のredditコーパス(SARC2.0)の皮肉データセットの政治的およびバランスのとれた(ポルバル)部分で実施されました。
微調整されたパフォーマンスは、モデルファミリ内のモデルサイズで単調に向上しますが、ハイパーパラメーターのチューニングもパフォーマンスに影響します。
微調整シナリオでは、完全な精度のllama-2-13bは、最先端の精度と$ f_1 $ scoreを達成します。
ゼロショット設定では、1つのGPT-4モデルが以前の試みに対して競争力のあるパフォーマンスを達成し、0.70の精度と0.75の$ F_1 $スコアをもたらします。
さらに、モデルのパフォーマンスはリリースごとに増加または低下する可能性があり、リリースごとにパフォーマンスを再評価する必要性を強調します。

要約(オリジナル)

Sarcasm detection is challenging for both humans and machines. This work explores how model characteristics impact sarcasm detection in OpenAI’s GPT, and Meta’s Llama-2 models, given their strong natural language understanding, and popularity. We evaluate fine-tuned and zero-shot models across various sizes, releases, and hyperparameters. Experiments were conducted on the political and balanced (pol-bal) portion of the popular Self-Annotated Reddit Corpus (SARC2.0) sarcasm dataset. Fine-tuned performance improves monotonically with model size within a model family, while hyperparameter tuning also impacts performance. In the fine-tuning scenario, full precision Llama-2-13b achieves state-of-the-art accuracy and $F_1$-score, both measured at 0.83, comparable to average human performance. In the zero-shot setting, one GPT-4 model achieves competitive performance to prior attempts, yielding an accuracy of 0.70 and an $F_1$-score of 0.75. Furthermore, a model’s performance may increase or decline with each release, highlighting the need to reassess performance after each release.

arxiv情報

著者 Montgomery Gole,Andriy Miranskyy
発行日 2025-04-08 16:05:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Assessing how hyperparameters impact Large Language Models’ sarcasm detection performance はコメントを受け付けていません

Can Performant LLMs Be Ethical? Quantifying the Impact of Web Crawling Opt-Outs

要約

オンラインコンテンツの著作権所有者によるWebクロールオプトアウトの採用の増加は、大規模な言語モデル(LLM)パフォーマンスに対するデータコンプライアンスの影響に関する重要な疑問を提起します。
ただし、これらの制限(および結果として得られるデータセットのフィルタリング)が、これらのコーパスを使用してトレーニングされたモデルの機能にどのように影響するかについてはほとんど知られていません。
この作業では、この効果を$ \ textit {データコンプライアンスギャップ} $(DCG)として概念化します。これは、Webクロールオプトアウトに準拠したデータセットでトレーニングされたモデル間のパフォーマンスの違いとそうでないものを定量化します。
2つの設定でデータコンプライアンスのギャップを測定します。ゼロからのモデルを事前に移し、既存の準拠モデルからの継続的な事前トレーニング(著作権で保護されたデータを後で事前に統合できる設定をシミュレートします)。
1.5Bモデルを使用した実験は、2025年1月の時点で、Webデータオプトアウトのコンプライアンスが一般的な知識の獲得を分解しないことを示しています(0 \%DCGに近い)。
ただし、生物医学研究などの専門的なドメインでは、主要な出版社を除くと、パフォーマンスの低下につながります。
これらの調査結果は、汎用のLLMを完全にオープンなデータを使用して同等に実行するようにトレーニングできるが、特殊なドメインのパフォーマンスは、トレーニングの後半で高品質の著作権で保護されたソースへのアクセスから恩恵を受ける可能性があることを示唆しています。
私たちの研究は、データコンプライアンスとダウンストリームモデルのパフォーマンスの間の長期にわたるトレードオフに関する経験的洞察を提供し、AIのトレーニングプラクティスと政策決定に関する将来の議論を通知します。

要約(オリジナル)

The increasing adoption of web crawling opt-outs by copyright holders of online content raises critical questions about the impact of data compliance on large language model (LLM) performance. However, little is known about how these restrictions (and the resultant filtering of pretraining datasets) affect the capabilities of models trained using these corpora. In this work, we conceptualize this effect as the $\textit{data compliance gap}$ (DCG), which quantifies the performance difference between models trained on datasets that comply with web crawling opt-outs, and those that do not. We measure the data compliance gap in two settings: pretraining models from scratch and continual pretraining from existing compliant models (simulating a setting where copyrighted data could be integrated later in pretraining). Our experiments with 1.5B models show that, as of January 2025, compliance with web data opt-outs does not degrade general knowledge acquisition (close to 0\% DCG). However, in specialized domains such as biomedical research, excluding major publishers leads to performance declines. These findings suggest that while general-purpose LLMs can be trained to perform equally well using fully open data, performance in specialized domains may benefit from access to high-quality copyrighted sources later in training. Our study provides empirical insights into the long-debated trade-off between data compliance and downstream model performance, informing future discussions on AI training practices and policy decisions.

arxiv情報

著者 Dongyang Fan,Vinko Sabolčec,Matin Ansaripour,Ayush Kumar Tarun,Martin Jaggi,Antoine Bosselut,Imanol Schlag
発行日 2025-04-08 17:08:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Can Performant LLMs Be Ethical? Quantifying the Impact of Web Crawling Opt-Outs はコメントを受け付けていません

Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation

要約

デコーダーのみの大型言語モデル(LLMS)は印象的な結果を示していますが、エンコーダーデコーダーモデルは、推論効率とより豊富なエンコーダー表現のために、実際のアプリケーションで依然として広く採用されています。
このホワイトペーパーでは、新しい問題をエンコーダデコーダーに適応させるという新しい問題を研究します。両方のアプローチの強みを活用して、より好ましい品質効率のトレードオフを達成することを目標としています。
適応は、デコーダーのみのLLMSの能力を継承するだけでなく、ゼロからの事前販売と比較して計算需要を減らすことを可能にすると主張します。
さまざまな事前トレーニングの目的とパラメーターの初期化/最適化手法を厳密に調査します。
Gemma 2(2Bおよび9B)に基づいた広範な実験と、新しく前提条件のMT5サイズのモデルのスイート(最大1.6b)を通じて、適応の有効性とエンコーダーデコダーLLMの利点を示します。
同様の推論予算では、エンコーダデコーダーLLMは、デコーダーのみの対応物よりも同等の(多くの場合より良い)前脱出パフォーマンスを実現します。
たとえば、Gemma 2B-2Bは、指示チューニング後にGemma 2Bを$ \ SIM $ 7 \%よりも優れています。
エンコーダーデコーダーの適応により、さまざまなサイズのモデルの柔軟な組み合わせが可能になり、Gemma 9B-2BはGemma 2B-2Bを$ 3 \%額で大幅に上回ります。
適応されたエンコーダー表現は、スーパーグルーでより良い結果をもたらします。
将来の研究を容易にするために、チェックポイントをリリースします。

要約(オリジナル)

While decoder-only large language models (LLMs) have shown impressive results, encoder-decoder models are still widely adopted in real-world applications for their inference efficiency and richer encoder representation. In this paper, we study a novel problem: adapting pretrained decoder-only LLMs to encoder-decoder, with the goal of leveraging the strengths of both approaches to achieve a more favorable quality-efficiency trade-off. We argue that adaptation not only enables inheriting the capability of decoder-only LLMs but also reduces the demand for computation compared to pretraining from scratch. We rigorously explore different pretraining objectives and parameter initialization/optimization techniques. Through extensive experiments based on Gemma 2 (2B and 9B) and a suite of newly pretrained mT5-sized models (up to 1.6B), we demonstrate the effectiveness of adaptation and the advantage of encoder-decoder LLMs. Under similar inference budget, encoder-decoder LLMs achieve comparable (often better) pretraining performance but substantially better finetuning performance than their decoder-only counterpart. For example, Gemma 2B-2B outperforms Gemma 2B by $\sim$7\% after instruction tuning. Encoder-decoder adaptation also allows for flexible combination of different-sized models, where Gemma 9B-2B significantly surpasses Gemma 2B-2B by $>$3\%. The adapted encoder representation also yields better results on SuperGLUE. We will release our checkpoints to facilitate future research.

arxiv情報

著者 Biao Zhang,Fedor Moiseev,Joshua Ainslie,Paul Suganthan,Min Ma,Surya Bhupatiraju,Fede Lebron,Orhan Firat,Armand Joulin,Zhe Dong
発行日 2025-04-08 17:13:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation はコメントを受け付けていません

LExT: Towards Evaluating Trustworthiness of Natural Language Explanations

要約

大規模な言語モデル(LLM)がハイステークスドメインにますます統合されるにつれて、自然言語の説明を生成するためにいくつかのアプローチが提案されています。
これらの説明は、特に透明性と信頼性が重要なヘルスケアなどの敏感なドメインで、モデルの解釈可能性を高めるために重要です。
LLMSによって生成されるこのような説明とその既知の懸念に照らして、モデル生成された説明を評価するための堅牢な評価フレームワークの必要性が高まっています。
ブルーやルージュなどの自然言語生成指標は、構文とセマンティックの正確さをキャプチャしますが、事実上の正確さ、一貫性、忠実さなどの他の重要な側面を見落としています。
このギャップに対処するために、自然言語の説明の信頼性を定量化し、妥当性と忠実さのバランスをとるための一般的な枠組みを提案し、包括的な言語説明信頼性スコア(LEXT)を導き出します(コードとセットアップの実験はhttps://github.com/cerai-iitm/LEXTM/LEXT)で公開されます。
パブリックメディカルデータセットを使用して、ドメインと存在するフレームワークをヘルスケアドメインに適用すると、ドメイン固有および汎用モデルを含む6つのモデルを評価します。
私たちの調査結果は、信頼できる説明を生み出す能力に大きな違いを示しています。
これらの説明を比較すると、汎用モデルによって実証された忠実さの矛盾や、ドメイン固有の微調整モデルよりも優れている傾向などの興味深い観察を行います。
この作業はさらに、カスタマイズされた評価フレームワークを使用して敏感な分野での自然言語の説明を評価し、医療およびそれ以降の言語モデルの信頼性と透明性を改善するための基盤を提供することの重要性を強調しています。

要約(オリジナル)

As Large Language Models (LLMs) become increasingly integrated into high-stakes domains, there have been several approaches proposed toward generating natural language explanations. These explanations are crucial for enhancing the interpretability of a model, especially in sensitive domains like healthcare, where transparency and reliability are key. In light of such explanations being generated by LLMs and its known concerns, there is a growing need for robust evaluation frameworks to assess model-generated explanations. Natural Language Generation metrics like BLEU and ROUGE capture syntactic and semantic accuracies but overlook other crucial aspects such as factual accuracy, consistency, and faithfulness. To address this gap, we propose a general framework for quantifying trustworthiness of natural language explanations, balancing Plausibility and Faithfulness, to derive a comprehensive Language Explanation Trustworthiness Score (LExT) (The code and set up to reproduce our experiments are publicly available at https://github.com/cerai-iitm/LExT). Applying our domain-agnostic framework to the healthcare domain using public medical datasets, we evaluate six models, including domain-specific and general-purpose models. Our findings demonstrate significant differences in their ability to generate trustworthy explanations. On comparing these explanations, we make interesting observations such as inconsistencies in Faithfulness demonstrated by general-purpose models and their tendency to outperform domain-specific fine-tuned models. This work further highlights the importance of using a tailored evaluation framework to assess natural language explanations in sensitive fields, providing a foundation for improving the trustworthiness and transparency of language models in healthcare and beyond.

arxiv情報

著者 Krithi Shailya,Shreya Rajpal,Gokul S Krishnan,Balaraman Ravindran
発行日 2025-04-08 17:16:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LExT: Towards Evaluating Trustworthiness of Natural Language Explanations はコメントを受け付けていません

Position: LLM Unlearning Benchmarks are Weak Measures of Progress

要約

未学習の方法には、敏感な情報または有害な情報を削除することにより、大規模な言語モデル(LLM)のプライバシーと安全性を改善する可能性があります。
LLMの学習研究コミュニティは、そのような方法の有効性を評価するために、ますます経験的なベンチマークになっています。
この論文では、既存のベンチマークが、候補者の学習方法の有効性に関する過度に楽観的で潜在的に誤解を招く見解を提供することがわかります。
多くの人気のあるベンチマークにシンプルで良性の変更を導入することにより、おそらく未記録の情報がアクセス可能である場合、または未学習プロセスが元のベンチマークで示されたよりもはるかに程度までモデルのパフォーマンスを保持した情報のパフォーマンスを低下させた場合を公開します。
既存のベンチマークは、忘却と保持情報の間にゆるい依存関係を導入する変更に対して特に脆弱であることを特定します。
さらに、既存のベンチマークでのターゲットを解除することのあいまいさが、指定されたテストクエリに過度に依存するメソッドの設計に簡単につながる可能性があることを示します。
私たちの調査結果に基づいて、ベンチマークの結果を信頼できる進歩の尺度として解釈する際には、コミュニティに慎重であることを促し、将来のLLMの学習研究を導くためのいくつかの推奨事項を提供します。

要約(オリジナル)

Unlearning methods have the potential to improve the privacy and safety of large language models (LLMs) by removing sensitive or harmful information post hoc. The LLM unlearning research community has increasingly turned toward empirical benchmarks to assess the effectiveness of such methods. In this paper, we find that existing benchmarks provide an overly optimistic and potentially misleading view on the effectiveness of candidate unlearning methods. By introducing simple, benign modifications to a number of popular benchmarks, we expose instances where supposedly unlearned information remains accessible, or where the unlearning process has degraded the model’s performance on retained information to a much greater extent than indicated by the original benchmark. We identify that existing benchmarks are particularly vulnerable to modifications that introduce even loose dependencies between the forget and retain information. Further, we show that ambiguity in unlearning targets in existing benchmarks can easily lead to the design of methods that overfit to the given test queries. Based on our findings, we urge the community to be cautious when interpreting benchmark results as reliable measures of progress, and we provide several recommendations to guide future LLM unlearning research.

arxiv情報

著者 Pratiksha Thaker,Shengyuan Hu,Neil Kale,Yash Maurya,Zhiwei Steven Wu,Virginia Smith
発行日 2025-04-08 17:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Position: LLM Unlearning Benchmarks are Weak Measures of Progress はコメントを受け付けていません

Predicting Drug-Gene Relations via Analogy Tasks with Word Embeddings

要約

Natural Language Processing(NLP)は、広範囲のフィールドで利用され、テキスト内の単語は通常、埋め込みと呼ばれる機能ベクトルに変換されます。
BioConceptvecは、Skip-Gramなどのモデルを使用して約3,000万のPubMed要約で訓練された生物学に合わせた埋め込みの具体的な例です。
一般に、単語の埋め込みは、単純なベクトル算術を介して類推タスクを解くことが知られています。
たとえば、$ \ mathrm {\ textit {king}} – \ mathrm {\ textit {man}} + \ mathrm {\ textit {woman}} $は、$ \ mathrm {\ textit {Queen}}} $を予測します。
この研究では、BioConceptvec埋め込みと、PubMed要約で訓練された独自の埋め込みが、薬物遺伝子関係に関する情報を含み、類推を通じて特定の薬物からの標的遺伝子を予測できることを実証します。
また、生物学的経路を使用して薬物と遺伝子を分類するとパフォーマンスが向上することも示しています。
さらに、過去の既知の関係から派生したベクトルは、年ごとに分割されたデータセットの未知の将来の関係を予測できることを示しています。
ベクターの追加として類推タスクを実装するという単純さにもかかわらず、私たちのアプローチは、薬物遺伝子関係の予測におけるGPT-4などの大規模な言語モデルのパフォーマンスに匹敵するパフォーマンスを実証しました。

要約(オリジナル)

Natural language processing (NLP) is utilized in a wide range of fields, where words in text are typically transformed into feature vectors called embeddings. BioConceptVec is a specific example of embeddings tailored for biology, trained on approximately 30 million PubMed abstracts using models such as skip-gram. Generally, word embeddings are known to solve analogy tasks through simple vector arithmetic. For instance, $\mathrm{\textit{king}} – \mathrm{\textit{man}} + \mathrm{\textit{woman}}$ predicts $\mathrm{\textit{queen}}$. In this study, we demonstrate that BioConceptVec embeddings, along with our own embeddings trained on PubMed abstracts, contain information about drug-gene relations and can predict target genes from a given drug through analogy computations. We also show that categorizing drugs and genes using biological pathways improves performance. Furthermore, we illustrate that vectors derived from known relations in the past can predict unknown future relations in datasets divided by year. Despite the simplicity of implementing analogy tasks as vector additions, our approach demonstrated performance comparable to that of large language models such as GPT-4 in predicting drug-gene relations.

arxiv情報

著者 Hiroaki Yamagiwa,Ryoma Hashimoto,Kiwamu Arakane,Ken Murakami,Shou Soeda,Momose Oyama,Yihua Zhu,Mariko Okada,Hidetoshi Shimodaira
発行日 2025-04-08 17:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Predicting Drug-Gene Relations via Analogy Tasks with Word Embeddings はコメントを受け付けていません

Hogwild! Inference: Parallel LLM Generation via Concurrent Attention

要約

大規模な言語モデル(LLMS)は、高度な推論、長型のコンテンツ生成、およびツールの使用を通じて、ますます複雑なタスクに取り組む能力を実証しています。
これらのタスクを解決するには、多くの場合、長い推論時間計算が含まれます。
人間の問題解決では、作業を促進する一般的な戦略はコラボレーションです。問題をサブタスクに分割する、同時にさまざまな戦略を探求するなど。最近の研究では、LLMが投票メカニズムや並行して実行できる独立したサブタスクの明示的な作成など、明示的な協力フレームワークを実装することで並行して動作できることが示されています。
ただし、これらの各フレームワークは、すべてのタイプのタスクに適していない場合があり、適用性を妨げる可能性があります。
この作業では、別の設計アプローチを提案します。LLM「ワーカー」を並行して実行し、同時にアップデートされた注意キャッシュを介して同期することができ、これらのワーカーに協力の最善の方法を決定するように促します。
私たちのアプローチにより、インスタンスは、手元の問題のための独自のコラボレーション戦略を考え出すことができます。
HogWildを介してこのアプローチを実装します!
推論:同じ注意キャッシュと同じLLMの複数のインスタンスが並列で実行され、互いの生成されたトークンへの「インスタント」アクセスを伴う並列LLM推論エンジン。
ホグリド!
推論では、回転位置の埋め込み(ロープ)を利用して、並列ハードウェアの使用率を改善しながら再計算を避けます。
現代の推論対応LLMは、追加の微調整なしで、共有キー価値キャッシュを箱から出して推測を実行できることがわかります。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated the ability to tackle increasingly complex tasks through advanced reasoning, long-form content generation, and tool use. Solving these tasks often involves long inference-time computations. In human problem solving, a common strategy to expedite work is collaboration: by dividing the problem into sub-tasks, exploring different strategies concurrently, etc. Recent research has shown that LLMs can also operate in parallel by implementing explicit cooperation frameworks, such as voting mechanisms or the explicit creation of independent sub-tasks that can be executed in parallel. However, each of these frameworks may not be suitable for all types of tasks, which can hinder their applicability. In this work, we propose a different design approach: we run LLM ‘workers’ in parallel , allowing them to synchronize via a concurrently-updated attention cache and prompt these workers to decide how best to collaborate. Our approach allows the instances to come up with their own collaboration strategy for the problem at hand, all the while ‘seeing’ each other’s partial progress in the concurrent cache. We implement this approach via Hogwild! Inference: a parallel LLM inference engine where multiple instances of the same LLM run in parallel with the same attention cache, with ‘instant’ access to each other’s generated tokens. Hogwild! inference takes advantage of Rotary Position Embeddings (RoPE) to avoid recomputation while improving parallel hardware utilization. We find that modern reasoning-capable LLMs can perform inference with shared Key-Value cache out of the box, without additional fine-tuning.

arxiv情報

著者 Gleb Rodionov,Roman Garipov,Alina Shutova,George Yakushev,Vage Egiazarian,Anton Sinitsin,Denis Kuznedelev,Dan Alistarh
発行日 2025-04-08 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Hogwild! Inference: Parallel LLM Generation via Concurrent Attention はコメントを受け付けていません

Generating Usage-related Questions for Preference Elicitation in Conversational Recommender Systems

要約

従来の推奨システムに対する会話型推奨システムの重要な特徴は、自然言語を使用してユーザーの好みを引き出す能力です。
現在、好みの誘発に対する主なアプローチは、アイテムやアイテムの属性について直接質問することです。
推奨事項を検索するユーザーは、特定のドメインで利用可能なオプションについて深い知識を持たない場合があります。
そのため、彼らは重要な属性や望ましい価値を認識していないかもしれません。
ただし、多くの設定では、アイテムの計画された使用について話すことは、ドメインに新しいものであっても、困難を提示するものではありません。
この論文では、アイテムの使用に基づいて暗黙の質問をすることにより、好みの誘発に対する新しいアプローチを提案します。
この作業の主な貢献の1つとして、クラウドソーシングを使用してマルチステージデータアノテーションプロトコルを開発して、高品質のラベル付きトレーニングデータセットを作成します。
もう1つの主な貢献は、質問生成タスクの4つのモデルの開発です。2つのテンプレートベースのベースラインモデルと2つのニューラルテキストからテキストモデルです。
テンプレートベースのモデルでは、トレーニングデータに見られる一般的なパターンをヒューリスティックに抽出しますが、ニューラルモデルはトレーニングデータを使用して質問を自動的に生成するために学習します。
自動評価のために機械翻訳の一般的なメトリックを使用して、私たちのアプローチは、限られたトレーニングデータであっても、誘発質問を生成するのに効果的であることを示しています。
さらに、ポイントワイズとペアワイズの評価デザインの両方を使用して、生成された質問を比較するために人間の評価を採用しています。
人間の評価結果は自動的な結果と一致しており、生成された質問の質について確実に結論を出すことができることがわかります。
最後に、モデルが制限を示すケースの詳細な分析を提供します。

要約(オリジナル)

A key distinguishing feature of conversational recommender systems over traditional recommender systems is their ability to elicit user preferences using natural language. Currently, the predominant approach to preference elicitation is to ask questions directly about items or item attributes. Users searching for recommendations may not have deep knowledge of the available options in a given domain. As such, they might not be aware of key attributes or desirable values for them. However, in many settings, talking about the planned use of items does not present any difficulties, even for those that are new to a domain. In this paper, we propose a novel approach to preference elicitation by asking implicit questions based on item usage. As one of the main contributions of this work, we develop a multi-stage data annotation protocol using crowdsourcing, to create a high-quality labeled training dataset. Another main contribution is the development of four models for the question generation task: two template-based baseline models and two neural text-to-text models. The template-based models use heuristically extracted common patterns found in the training data, while the neural models use the training data to learn to generate questions automatically. Using common metrics from machine translation for automatic evaluation, we show that our approaches are effective in generating elicitation questions, even with limited training data. We further employ human evaluation for comparing the generated questions using both pointwise and pairwise evaluation designs. We find that the human evaluation results are consistent with the automatic ones, allowing us to draw conclusions about the quality of the generated questions with certainty. Finally, we provide a detailed analysis of cases where the models show their limitations.

arxiv情報

著者 Ivica Kostric,Krisztian Balog,Filip Radlinski
発行日 2025-04-08 13:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Generating Usage-related Questions for Preference Elicitation in Conversational Recommender Systems はコメントを受け付けていません

Information-Theoretic Reward Decomposition for Generalizable RLHF

要約

一般化可能な報酬モデルは、人間のフィードバック(RLHF)からの強化学習において重要です。これは、目に見えない迅速な応答ペアを正しく評価できるためです。
ただし、既存の報酬モデルには、選択された応答と拒否された応答の間の報酬のギャップを増やすことで通常訓練されているため、応答が条件付けられているプロンプトを見落とすことで訓練されるため、この能力が欠けています。
その結果、訓練された報酬モデルがデータ分布の外側にあるプロンプト応答ペアで評価されると、プロンプトの効果を無視すると、報酬モデルの一般化が不十分になる可能性があります。
この問題に対処するために、報酬値を2つの独立したコンポーネントに分解します:迅速な報酬と迅速な関連報酬。
プロンプトフリーの報酬は、応答によってのみ決定される評価を表しますが、プロンプト関連の報酬は、プロンプトと応答の両方に由来する報酬を反映しています。
これらの2つのコンポーネントを情報理論的な観点から抽出します。これには、追加のモデルは必要ありません。
その後、迅速な報酬値に基づいてデータサンプルに優先順位を付けることにより、新しい報酬学習アルゴリズムを提案します。
おもちゃの例を通じて、抽出されたプロンプトフリーで迅速な報酬が報酬モデルの2つの部分を効果的に特徴付けることを実証します。
さらに、標準的な評価は、この方法が報酬モデルのアライメントパフォーマンスと一般化能力の両方を改善することを示しています。

要約(オリジナル)

A generalizable reward model is crucial in Reinforcement Learning from Human Feedback (RLHF) as it enables correctly evaluating unseen prompt-response pairs. However, existing reward models lack this ability, as they are typically trained by increasing the reward gap between chosen and rejected responses, while overlooking the prompts that the responses are conditioned on. Consequently, when the trained reward model is evaluated on prompt-response pairs that lie outside the data distribution, neglecting the effect of prompts may result in poor generalization of the reward model. To address this issue, we decompose the reward value into two independent components: prompt-free reward and prompt-related reward. Prompt-free reward represents the evaluation that is determined only by responses, while the prompt-related reward reflects the reward that derives from both the prompt and the response. We extract these two components from an information-theoretic perspective, which requires no extra models. Subsequently, we propose a new reward learning algorithm by prioritizing data samples based on their prompt-free reward values. Through toy examples, we demonstrate that the extracted prompt-free and prompt-related rewards effectively characterize two parts of the reward model. Further, standard evaluations show that our method improves both the alignment performance and the generalization capability of the reward model.

arxiv情報

著者 Liyuan Mao,Haoran Xu,Amy Zhang,Weinan Zhang,Chenjia Bai
発行日 2025-04-08 13:26:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Information-Theoretic Reward Decomposition for Generalizable RLHF はコメントを受け付けていません