On the Query Complexity of Verifier-Assisted Language Generation

要約

最近、多数の作品が推論時間アルゴリズム(例:Best-of-N)を提案しており、生成プロセスを支援するために検証剤を組み込んでいます。
彼らの品質効率のトレードオフは、さまざまな制約された生成タスクに経験的にベンチマークされていますが、アルゴリズム設計の状況はまだほとんど理解されていません。
このホワイトペーパーでは、事前に訓練された言語モデルジェネレーターのOracleとプロセス検証を使用して、制約された生成について推論するための数学的フレームワークを開発します。これは、選択の制約を満たす文字列にプレフィックスを拡張できるかどうかを決定できます。
非常に単純な設定でさえ、検証剤へのアクセスが扱いやすい問題(情報理論的または計算的に)を扱いやすいものにする可能性があることを示します。
実際、TokenWiseの拒絶サンプリングのような単純なアルゴリズムでさえ、検証剤へのアクセスから大きなメリットを享受できることを示しています。
経験的には、サンプラーが「バックトラック」(すなわち、生成された最終的なトークンを消去する)が許可されているトークンワイズ拒絶サンプリングの自然な修正が、自然ベースライン(例えば(ブロックワイズ)のサンプリング、核)に堅牢かつ実質的な利点があることを示しています。
サンプリング) – 計算効率、精度、多様性の両方の観点から。

要約(オリジナル)

Recently, a plethora of works have proposed inference-time algorithms (e.g. best-of-n), which incorporate verifiers to assist the generation process. Their quality-efficiency trade-offs have been empirically benchmarked on a variety of constrained generation tasks, but the algorithmic design landscape is still largely poorly understood. In this paper, we develop a mathematical framework for reasoning about constrained generation using a pre-trained language model generator oracle and a process verifier–which can decide whether a prefix can be extended to a string which satisfies the constraints of choice. We show that even in very simple settings, access to a verifier can render an intractable problem (information-theoretically or computationally) to a tractable one. In fact, we show even simple algorithms, like tokenwise rejection sampling, can enjoy significant benefits from access to a verifier. Empirically, we show that a natural modification of tokenwise rejection sampling, in which the sampler is allowed to ‘backtrack’ (i.e., erase the final few generated tokens) has robust and substantive benefits over natural baselines (e.g. (blockwise) rejection sampling, nucleus sampling)–both in terms of computational efficiency, accuracy and diversity.

arxiv情報

著者 Edoardo Botta,Yuchen Li,Aashay Mehta,Jordan T. Ash,Cyril Zhang,Andrej Risteski
発行日 2025-02-17 18:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | On the Query Complexity of Verifier-Assisted Language Generation はコメントを受け付けていません

RA-MTR: A Retrieval Augmented Multi-Task Reader based Approach for Inspirational Quote Extraction from Long Documents

要約

有名な個人からの心に強く訴える引用は、ニュース記事、エッセイ、日常の会話で考えを伝えるためによく使用されます。
この論文では、長いテキストから最も関連性の高い引用を抽出することを目的とする新しいコンテキストベースの引用抽出システムを提案します。
この引用抽出は、最初にベクトルストアベースのレトリバーを使用して、マルチタスクリーダーを適用することにより、まずオープンドメインの質問に応答する問題になります。
3つのコンテキストベースの引用抽出データセットをキュレートし、最先端のパフォーマンスを向上させる新しいマルチタスクフレームワークRA-MTRを導入し、Bow F1スコアで5.08%の最大改善を達成します。

要約(オリジナル)

Inspirational quotes from famous individuals are often used to convey thoughts in news articles, essays, and everyday conversations. In this paper, we propose a novel context-based quote extraction system that aims to extract the most relevant quote from a long text. We formulate this quote extraction as an open domain question answering problem first by employing a vector-store based retriever and then applying a multi-task reader. We curate three context-based quote extraction datasets and introduce a novel multi-task framework RA-MTR that improves the state-of-the-art performance, achieving a maximum improvement of 5.08% in BoW F1-score.

arxiv情報

著者 Sayantan Adak,Animesh Mukherjee
発行日 2025-02-17 18:46:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RA-MTR: A Retrieval Augmented Multi-Task Reader based Approach for Inspirational Quote Extraction from Long Documents はコメントを受け付けていません

OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain

要約

大規模な言語モデル(LLMS)の典型的かつ実用的な応用として、特にLLMがドメイン固有の知識を欠く可能性のある垂直ドメインでは、検索された生成(RAG)技術が広範囲に注目しています。
このホワイトペーパーでは、金融領域に全方向性および自動ラグベンチマーク、Omnievalを紹介します。
私たちのベンチマークは、(1)クエリを5つのタスククラスと16の財務トピックに分類するマトリックスベースのRAGシナリオ評価システムを含む多次元評価フレームワークによって特徴付けられ、多様なクエリシナリオの構造化された評価につながります。
(2)GPT-4ベースの自動生成と人間の注釈を組み合わせた多次元評価データ生成アプローチで、生成されたインスタンスでの人間の評価における87.47 \%の受け入れ比を達成します。
(3)検索と生成のパフォーマンスの両方を評価するマルチステージ評価システムは、RAGパイプラインで包括的な評価をもたらします。
(4)ルールベースおよびLLMベースのものから導き出された堅牢な評価メトリックは、手動注釈とLLM評価者の監視された微調整を通じて評価の信頼性を高めます。
私たちの実験は、大規模なテストデータセットを含むOmnievalの包括性を実証し、多様なトピックとタスクにわたるRAGシステムのパフォーマンスの変動を強調し、RAGモデルが垂直ドメインでの機能を改善する重要な機会を明らかにします。
\ href {https://github.com/ruc-nlpir/omnieval} {https://github.com/ruc-nlpir/omnieval}でベンチマークのコードをオープンします。

要約(オリジナル)

As a typical and practical application of Large Language Models (LLMs), Retrieval-Augmented Generation (RAG) techniques have gained extensive attention, particularly in vertical domains where LLMs may lack domain-specific knowledge. In this paper, we introduce an omnidirectional and automatic RAG benchmark, OmniEval, in the financial domain. Our benchmark is characterized by its multi-dimensional evaluation framework, including (1) a matrix-based RAG scenario evaluation system that categorizes queries into five task classes and 16 financial topics, leading to a structured assessment of diverse query scenarios; (2) a multi-dimensional evaluation data generation approach, which combines GPT-4-based automatic generation and human annotation, achieving an 87.47\% acceptance ratio in human evaluations on generated instances; (3) a multi-stage evaluation system that evaluates both retrieval and generation performance, result in a comprehensive evaluation on the RAG pipeline; and (4) robust evaluation metrics derived from rule-based and LLM-based ones, enhancing the reliability of assessments through manual annotations and supervised fine-tuning of an LLM evaluator. Our experiments demonstrate the comprehensiveness of OmniEval, which includes extensive test datasets and highlights the performance variations of RAG systems across diverse topics and tasks, revealing significant opportunities for RAG models to improve their capabilities in vertical domains. We open source the code of our benchmark in \href{https://github.com/RUC-NLPIR/OmniEval}{https://github.com/RUC-NLPIR/OmniEval}.

arxiv情報

著者 Shuting Wang,Jiejun Tan,Zhicheng Dou,Ji-Rong Wen
発行日 2025-02-17 18:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain はコメントを受け付けていません

SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs

要約

チェーンオブテイ(COT)の推論により、中間推論ステップを生成することにより、大規模な言語モデル(LLMS)が複雑な推論タスクを解決できます。
ただし、既存のアプローチのほとんどは、ハードトークンデコードに焦点を当てており、離散語彙空間内の推論を制約し、常に最適ではない場合があります。
最近の努力は継続的なスペースの推論を探求していますが、彼らはしばしば壊滅的な忘却に苦しみ、適切な指示でゼロショット設定ですでにうまく機能する最先端のLLMへの適用性を制限します。
この課題に対処するために、基礎となるLLMの変更を必要としない連続空間推論のための新しいアプローチを提案します。
具体的には、軽量のアシスタントモデルを使用して、インスタンス固有のソフト思考トークンを最初の思考チェーンとして推測的に生成し、投影モジュールを介してLLMの表現スペースにマッピングされます。
5つの推論ベンチマークでの実験結果は、私たちの方法が、パラメーター効率の高い微調整を通じてLLM推論パフォーマンスを強化することを示しています。

要約(オリジナル)

Chain-of-Thought (CoT) reasoning enables Large Language Models (LLMs) to solve complex reasoning tasks by generating intermediate reasoning steps. However, most existing approaches focus on hard token decoding, which constrains reasoning within the discrete vocabulary space and may not always be optimal. While recent efforts explore continuous-space reasoning, they often suffer from catastrophic forgetting, limiting their applicability to state-of-the-art LLMs that already perform well in zero-shot settings with a proper instruction. To address this challenge, we propose a novel approach for continuous-space reasoning that does not require modifying the underlying LLM. Specifically, we employ a lightweight assistant model to generate instance-specific soft thought tokens speculatively as the initial chain of thoughts, which are then mapped into the LLM’s representation space via a projection module. Experimental results on five reasoning benchmarks demonstrate that our method enhances LLM reasoning performance through supervised, parameter-efficient fine-tuning.

arxiv情報

著者 Yige Xu,Xu Guo,Zhiwei Zeng,Chunyan Miao
発行日 2025-02-17 18:52:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs はコメントを受け付けていません

REVERSUM: A Multi-staged Retrieval-Augmented Generation Method to Enhance Wikipedia Tail Biographies through Personal Narratives

要約

ウィキペディアは、幅広いエンティティに関する事実情報のための非常に貴重なリソースです。
ただし、あまり知られていないエンティティの記事の品質は、よく知られているエンティティの品質に遅れをとっています。
この研究は、自伝や伝記などの個人的な物語を活用することにより、ウィキペディアのBおよびCカテゴリの伝記記事を強化するための新しいアプローチを提案しています。
マルチステージの検索された高級世代のテクニック – Reversumを利用することにより、これらのあまり知られていない記事の情報コンテンツを豊かにすることを目指しています。
私たちの研究は、個人的な物語がウィキペディアの記事の品質を大幅に改善し、以前の研究で十分に活用されていない信頼できる情報の豊富な情報源を提供できることを明らかにしています。
群衆ベースの評価に基づいて、Reversum生成コンテンツは、元のWikipediaの記事との統合性の点で、最高のパフォーマンスのベースラインよりも17%、情報性の点で28.5 \%よりも優れています。
コードとデータは、https://github.com/sayantan11995/wikipedia_enrichmentで入手できます

要約(オリジナル)

Wikipedia is an invaluable resource for factual information about a wide range of entities. However, the quality of articles on less-known entities often lags behind that of the well-known ones. This study proposes a novel approach to enhancing Wikipedia’s B and C category biography articles by leveraging personal narratives such as autobiographies and biographies. By utilizing a multi-staged retrieval-augmented generation technique — REVerSum — we aim to enrich the informational content of these lesser-known articles. Our study reveals that personal narratives can significantly improve the quality of Wikipedia articles, providing a rich source of reliable information that has been underutilized in previous studies. Based on crowd-based evaluation, REVerSum generated content outperforms the best performing baseline by 17% in terms of integrability to the original Wikipedia article and 28.5\% in terms of informativeness. Code and Data are available at: https://github.com/sayantan11995/wikipedia_enrichment

arxiv情報

著者 Sayantan Adak,Pauras Mangesh Meher,Paramita Das,Animesh Mukherjee
発行日 2025-02-17 18:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | REVERSUM: A Multi-staged Retrieval-Augmented Generation Method to Enhance Wikipedia Tail Biographies through Personal Narratives はコメントを受け付けていません

MaLei at the PLABA Track of TREC 2024: RoBERTa for Term Replacement — LLaMA3.1 and GPT-4o for Complete Abstract Adaptation

要約

このレポートは、Biomedical Abstracts(PLABA)2024(昨年以前の名前がありました)の共有タスクの平易な言語適応のためのマレイチーム(マンチェスターとライデン)のシステム説明です。
://ir.nist.gov/evalbase/conf/trec-2024)。
このレポートには、PLABA-2024の2つのサブタスクに対応する2つのセクションが含まれています。
タスク1(用語の交換)では、微調整されたRebertaベースモデルを適用して、生物医学の要約の困難な用語、専門用語、頭字語を識別および分類し、F1スコアを報告しました(タスク1Aおよび1B)。
タスク2(完全な抽象適応)では、LLAMMA3.1-70B-instructとGPT-4Oをワンショットプロンプトとともに抽象適応を完了し、BLEU、SARI、BERTSCORE、レンズ、およびサルサのスコアを報告しました。
タスク1Aおよび1BでのPLABA-2024からの公式評価から、2つのサブタスクでそれぞれ3位と2位にランクされた、はるかに小さい微調整されたRoberta-Baseモデルは、評価された9の2つのタスクで平均F1スコアで3位にランクされました。
システム。
llama-3.1-70b-instructedモデルは、タスク2の最高の完全性スコアを達成しました。https://github.com/hecta-uom/plaba2024でソースコード、微調整モデル、および関連リソースを共有します

要約(オリジナル)

This report is the system description of the MaLei team (Manchester and Leiden) for the shared task Plain Language Adaptation of Biomedical Abstracts (PLABA) 2024 (we had an earlier name BeeManc following last year), affiliated with TREC2024 (33rd Text REtrieval Conference https://ir.nist.gov/evalbase/conf/trec-2024). This report contains two sections corresponding to the two sub-tasks in PLABA-2024. In task one (term replacement), we applied fine-tuned ReBERTa-Base models to identify and classify the difficult terms, jargon, and acronyms in the biomedical abstracts and reported the F1 score (Task 1A and 1B). In task two (complete abstract adaptation), we leveraged Llamma3.1-70B-Instruct and GPT-4o with the one-shot prompts to complete the abstract adaptation and reported the scores in BLEU, SARI, BERTScore, LENS, and SALSA. From the official Evaluation from PLABA-2024 on Task 1A and 1B, our much smaller fine-tuned RoBERTa-Base model ranked 3rd and 2nd respectively on the two sub-tasks, and the 1st on averaged F1 scores across the two tasks from 9 evaluated systems. Our LLaMA-3.1-70B-instructed model achieved the highest Completeness score for Task 2. We share our source codes, fine-tuned models, and related resources at https://github.com/HECTA-UoM/PLABA2024

arxiv情報

著者 Zhidong Ling,Zihao Li,Pablo Romero,Lifeng Han,Goran Nenadic
発行日 2025-02-17 18:54:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MaLei at the PLABA Track of TREC 2024: RoBERTa for Term Replacement — LLaMA3.1 and GPT-4o for Complete Abstract Adaptation はコメントを受け付けていません

Logical forms complement probability in understanding language model (and human) performance

要約

自然言語での計画のために大規模な言語モデル(LLM)を使用することに関心が高まっているため、その行動を理解することは重要な研究問題になります。
この作業は、自然言語で論理的推論を実行するLLMSの能力の体系的な調査を実施しています。
命題およびモーダルロジックにおける仮説的および分離的な三段論法の制御されたデータセットを導入し、LLMパフォーマンスを理解するためのテストベッドとして使用します。
私たちの結果は、LLMの行動を予測する際の新しい洞察につながります。入力の確率に加えて(Gonen et al。、2023; McCoy et al。、2024)、論理形式は重要な要因と見なされるべきです。
さらに、両方から行動データを収集および比較することにより、人間とLLMの論理的推論パフォーマンスの間の類似性と矛盾を示します。

要約(オリジナル)

With the increasing interest in using large language models (LLMs) for planning in natural language, understanding their behaviors becomes an important research question. This work conducts a systematic investigation of LLMs’ ability to perform logical reasoning in natural language. We introduce a controlled dataset of hypothetical and disjunctive syllogisms in propositional and modal logic and use it as the testbed for understanding LLM performance. Our results lead to novel insights in predicting LLM behaviors: in addition to the probability of input (Gonen et al., 2023; McCoy et al., 2024), logical forms should be considered as important factors. In addition, we show similarities and discrepancies between the logical reasoning performances of humans and LLMs by collecting and comparing behavioral data from both.

arxiv情報

著者 Yixuan Wang,Freda Shi
発行日 2025-02-17 18:56:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LO | Logical forms complement probability in understanding language model (and human) performance はコメントを受け付けていません

Idiosyncrasies in Large Language Models

要約

この作業では、大規模な言語モデル(LLMS)で特異性を発表して研究します。これは、モデルを区別するために使用できる出力のユニークなパターンです。
そのためには、単純な分類タスクを検討します。特定のテキスト出力を与えられた場合、目的はテキストを生成するソースLLMを予測することです。
LLMのさまざまなグループにわたってこの合成タスクを評価し、LLMで生成されたテキストに既存のテキスト埋め込みモデルを微調整するだけで、優れた分類精度が得られることがわかります。
特に、ChATGPT、Claude、Grok、Gemini、およびDeepSeekを含む5方向分類問題で、保有された検証データの97.1%の精度を達成します。
私たちのさらなる調査は、これらの特異性が単語レベルの分布に根ざしていることを明らかにしています。
これらのパターンは、テキストが外部LLMによって書き換え、翻訳、または要約されている場合でも持続し、セマンティックコンテンツにもエンコードされていることを示唆しています。
さらに、LLMを審査員として活用して、各モデルの特異性の詳細で自由回答形式の説明を生成します。
最後に、特に合成データのトレーニングとモデルの類似性を推測するための調査結果のより広範な意味について説明します。
コードはhttps://github.com/locuslab/llm-idiosyncrasiesで入手できます。

要約(オリジナル)

In this work, we unveil and study idiosyncrasies in Large Language Models (LLMs) — unique patterns in their outputs that can be used to distinguish the models. To do so, we consider a simple classification task: given a particular text output, the objective is to predict the source LLM that generates the text. We evaluate this synthetic task across various groups of LLMs and find that simply fine-tuning existing text embedding models on LLM-generated texts yields excellent classification accuracy. Notably, we achieve 97.1% accuracy on held-out validation data in the five-way classification problem involving ChatGPT, Claude, Grok, Gemini, and DeepSeek. Our further investigation reveals that these idiosyncrasies are rooted in word-level distributions. These patterns persist even when the texts are rewritten, translated, or summarized by an external LLM, suggesting that they are also encoded in the semantic content. Additionally, we leverage LLM as judges to generate detailed, open-ended descriptions of each model’s idiosyncrasies. Finally, we discuss the broader implications of our findings, particularly for training on synthetic data and inferring model similarity. Code is available at https://github.com/locuslab/llm-idiosyncrasies.

arxiv情報

著者 Mingjie Sun,Yida Yin,Zhiqiu Xu,J. Zico Kolter,Zhuang Liu
発行日 2025-02-17 18:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Idiosyncrasies in Large Language Models はコメントを受け付けていません

Theoretical Barriers in Bellman-Based Reinforcement Learning

要約

高次元空間向けに設計された補強学習アルゴリズムは、しばしば、州のサンプルされた状態のサブセットでベルマン方程式を強制し、一般化に依存して州空間全体で知識を伝播します。
この論文では、この一般的なアプローチの基本的な制限を特定し、形式化します。
具体的には、このアプローチが悪用できないという単純な構造で反例問題を構築します。
私たちの調査結果は、そのようなアルゴリズムが問題に関する重要な情報を無視し、非効率につながることを明らかにしています。
さらに、この否定的な結果を文献から別のアプローチに拡張します。後知恵経験は、状態間の到達可能性を学習します。

要約(オリジナル)

Reinforcement Learning algorithms designed for high-dimensional spaces often enforce the Bellman equation on a sampled subset of states, relying on generalization to propagate knowledge across the state space. In this paper, we identify and formalize a fundamental limitation of this common approach. Specifically, we construct counterexample problems with a simple structure that this approach fails to exploit. Our findings reveal that such algorithms can neglect critical information about the problems, leading to inefficiencies. Furthermore, we extend this negative result to another approach from the literature: Hindsight Experience Replay learning state-to-state reachability.

arxiv情報

著者 Brieuc Pinon,Raphaël Jungers,Jean-Charles Delvenne
発行日 2025-02-17 16:18:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Theoretical Barriers in Bellman-Based Reinforcement Learning はコメントを受け付けていません

Ranking Unraveled: Recipes for LLM Rankings in Head-to-Head AI Combat

要約

使用する大規模な言語モデル(LLM)を決定することは、複雑な課題です。
ペアワイズランキングは、LLMの人間の好みを評価するための新しい方法として浮上しています。
このアプローチには、事前定義された基準に基づいてモデル出力のペアを評価する人間が必要です。
これらの比較を収集することにより、ELOなどの方法を使用してランキングを構築できます。
ただし、LLM評価のコンテキストで構築されたこれらのアルゴリズムを適用すると、いくつかの課題が生じます。
この論文では、LLMSの直接的な比較のためのランキングシステムの有効性を調査します。
効果的なランキングのための一連の基本原則を正式に定義し、LLMSのコンテキストでいくつかのランキングアルゴリズムの堅牢性について一連の広範な評価を実施します。
分析は、ランキングの精度と効率に影響を与える要因に関する重要な洞察を明らかにし、特定の評価コンテキストとリソースの制約に基づいて最も適切な方法を選択するためのガイドラインを提供します。

要約(オリジナル)

Deciding which large language model (LLM) to use is a complex challenge. Pairwise ranking has emerged as a new method for evaluating human preferences for LLMs. This approach entails humans evaluating pairs of model outputs based on a predefined criterion. By collecting these comparisons, a ranking can be constructed using methods such as Elo. However, applying these algorithms as constructed in the context of LLM evaluation introduces several challenges. In this paper, we explore the effectiveness of ranking systems for head-to-head comparisons of LLMs. We formally define a set of fundamental principles for effective ranking and conduct a series of extensive evaluations on the robustness of several ranking algorithms in the context of LLMs. Our analysis uncovers key insights into the factors that affect ranking accuracy and efficiency, offering guidelines for selecting the most appropriate methods based on specific evaluation contexts and resource constraints.

arxiv情報

著者 Roland Daynauth,Christopher Clarke,Krisztian Flautner,Lingjia Tang,Jason Mars
発行日 2025-02-17 16:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Ranking Unraveled: Recipes for LLM Rankings in Head-to-Head AI Combat はコメントを受け付けていません