TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

要約

因果言語モデルは顕著な能力を実証していますが、そのサイズは、リソースに制約のある環境での展開に大きな課題をもたらします。
知識の蒸留は、大規模な教師モデルから小規模な学生モデルに知識を転送するための広く使用されている手法であり、モデル圧縮の有望なアプローチを提示します。
残りの重要な問題は、教師モデルと学生モデルの主な違い、つまり、蒸留中に障壁をもたらす実質的な容量ギャップ、モード平均化、モード崩壊にあります。
これらの問題に対処するために、$ \ textit {時間的に適応的な補間蒸留(TAID)} $を紹介します。これは、教師の分布に向けて生徒の初期分布から徐々にシフトする適応的な中間分布を通じて生徒と教師の分布を動的に補間する新しい知識蒸留アプローチを導入します。

モードの崩壊を防ぎ、モードの平均化とモードの崩壊のバランスをとりながら容量のギャップに対処する際の有効性を経験的に示すTAIDの能力を示す理論分析を提供します。
当社の包括的な実験では、さまざまなモデルのサイズとアーキテクチャにわたるTaidの優れたパフォーマンスが、命令の調整とトレーニング前のシナリオの両方で優れたパフォーマンスを示しています。
さらに、2つの最先端のコンパクトファンデーションモデルを開発することにより、Taidの実用的な影響を紹介します:$ \ texttt {taid-llm-1.5b}言語タスク用の$ \ texttt {taid-vlm-2b} $ for vision
– 言語タスク。
これらの結果は、高性能で効率的なモデルを作成し、よりアクセスしやすいAIテクノロジーの開発を進めることにおけるTaidの有効性を示しています。

要約(オリジナル)

Causal language models have demonstrated remarkable capabilities, but their size poses significant challenges for deployment in resource-constrained environments. Knowledge distillation, a widely-used technique for transferring knowledge from a large teacher model to a small student model, presents a promising approach for model compression. A significant remaining issue lies in the major differences between teacher and student models, namely the substantial capacity gap, mode averaging, and mode collapse, which pose barriers during distillation. To address these issues, we introduce $\textit{Temporally Adaptive Interpolated Distillation (TAID)}$, a novel knowledge distillation approach that dynamically interpolates student and teacher distributions through an adaptive intermediate distribution, gradually shifting from the student’s initial distribution towards the teacher’s distribution. We provide a theoretical analysis demonstrating TAID’s ability to prevent mode collapse and empirically show its effectiveness in addressing the capacity gap while balancing mode averaging and mode collapse. Our comprehensive experiments demonstrate TAID’s superior performance across various model sizes and architectures in both instruction tuning and pre-training scenarios. Furthermore, we showcase TAID’s practical impact by developing two state-of-the-art compact foundation models: $\texttt{TAID-LLM-1.5B}$ for language tasks and $\texttt{TAID-VLM-2B}$ for vision-language tasks. These results demonstrate TAID’s effectiveness in creating high-performing and efficient models, advancing the development of more accessible AI technologies.

arxiv情報

著者 Makoto Shing,Kou Misaki,Han Bao,Sho Yokoi,Takuya Akiba
発行日 2025-02-12 12:25:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models はコメントを受け付けていません

Systematic Knowledge Injection into Large Language Models via Diverse Augmentation for Domain-Specific RAG

要約

検索された生成(RAG)は、ドメインの知識を大規模な言語モデル(LLM)に組み込むための顕著な方法として浮上しています。
RAGは、コンテキストに検索されたドメインの知識を組み込むことにより応答の関連性を高めますが、検索エラーは幻覚と誤った答えにつながる可能性があります。
レトリーバーの障害から回復するために、検索エラーの場合でも、モデルを微調整して正しい応答を生成することにより、ドメインの知識が注入されます。
ただし、体系的な知識の増強がなければ、微調整されたLLMは新しい情報を記憶するかもしれませんが、関連するドメインの知識を抽出できず、パフォーマンスが低下することがわかります。
この作業では、トレーニングデータを2つの方法で拡張することにより、微調整プロセスを大幅に強化する新しいフレームワークを提示します – コンテキストの増強と知識の言い換え。
コンテキストの増強では、検索された情報の関連性を変化させて、特定のQAペアの複数のトレーニングサンプルを作成し、モデルにいつ無視するか、いつ回収されたコンテンツに依存するかを教えます。
知識の言い換えでは、同じ質問に対する複数の回答で微調整され、LLMが専門的な知識をよりよく内在化できるようにします。
微調整による壊滅的な忘却を緩和するために、質問にドメイン固有の識別子を追加し、一般的なQAペアを含むリプレイバッファーも利用します。
実験結果は、LLMの一般化能力を維持しながら、トークンレベルのリコールで最大10 \%の相対的なゲインを達成し、既存の手法に対する方法の有効性を示しています。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) has emerged as a prominent method for incorporating domain knowledge into Large Language Models (LLMs). While RAG enhances response relevance by incorporating retrieved domain knowledge in the context, retrieval errors can still lead to hallucinations and incorrect answers. To recover from retriever failures, domain knowledge is injected by fine-tuning the model to generate the correct response, even in the case of retrieval errors. However, we observe that without systematic knowledge augmentation, fine-tuned LLMs may memorize new information but still fail to extract relevant domain knowledge, leading to poor performance. In this work, we present a novel framework that significantly enhances the fine-tuning process by augmenting the training data in two ways — context augmentation and knowledge paraphrasing. In context augmentation, we create multiple training samples for a given QA pair by varying the relevance of the retrieved information, teaching the model when to ignore and when to rely on retrieved content. In knowledge paraphrasing, we fine-tune with multiple answers to the same question, enabling LLMs to better internalize specialized knowledge. To mitigate catastrophic forgetting due to fine-tuning, we add a domain-specific identifier to a question and also utilize a replay buffer containing general QA pairs. Experimental results demonstrate the efficacy of our method over existing techniques, achieving up to 10\% relative gain in token-level recall while preserving the LLM’s generalization capabilities.

arxiv情報

著者 Kushagra Bhushan,Yatin Nandwani,Dinesh Khandelwal,Sonam Gupta,Gaurav Pandey,Dinesh Raghu,Sachindra Joshi
発行日 2025-02-12 12:39:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Systematic Knowledge Injection into Large Language Models via Diverse Augmentation for Domain-Specific RAG はコメントを受け付けていません

$C^2$: Scalable Auto-Feedback for LLM-based Chart Generation

要約

大規模な言語モデル(LLM)を備えた高品質のチャートを生成することは、データが限られていることと人間のキュレーションのスケーリングのコストが高いため、重大な課題を提示します。
$ \ langle \ text {instruction}、\ text {data}、\ text {code} \ rangle $トリプレットは、作成が技術的な専門知識を必要とするため、手動でキュレートするのが少ない費用がかかります。
このスケーラビリティの課題に対処するために、リファレンスフリーの自動フィードバックジェネレーターを導入します。これにより、費用のかかる人間の介入の必要性が排除されます。
私たちの斬新なフレームワークc $^2 $は、(1)自動フィードバックプロバイダー(Chartaf)と(2)多様なリファレンスフリーデータセット(Chartuie-8K)で構成されています。
結果は説得力があります。最初の実験では、回答者の74%がフィードバック後の結果を強く望んでおり、10%が好みました。
2番目のフィードバック後の実験は、チャルタフが9つのベースラインよりも優れていることを示しています。
さらに、Chartuie-8Kは、ベンチマークよりもそれぞれ5982%、1936%、および91%増加することにより、データの多様性を大幅に改善します。
最後に、LLMユーザーの調査では、参加者の94%がChartuie-8Kのクエリを好んでおり、93%が実際のユースケースと整合していると見なしていることが明らかになりました。
コアの貢献は、chartsquared.github.ioでオープンソースとして利用でき、十分な定性的例があります。

要約(オリジナル)

Generating high-quality charts with Large Language Models (LLMs) presents significant challenges due to limited data and the high cost of scaling through human curation. $\langle \text{instruction}, \text{data}, \text{code} \rangle$ triplets are scarce and expensive to manually curate as their creation demands technical expertise. To address this scalability challenge, we introduce a reference-free automatic feedback generator, which eliminates the need for costly human intervention. Our novel framework, C$^2$, consists of (1) an automatic feedback provider (ChartAF) and (2) a diverse, reference-free dataset (ChartUIE-8K). The results are compelling: in our first experiment, 74% of respondents strongly preferred, and 10% preferred, the results after feedback. The second post-feedback experiment demonstrates that ChartAF outperform nine baselines. Moreover, ChartUIE-8K significantly improves data diversity by increasing queries, datasets, and chart types by 5982%, 1936%, and 91%, respectively, over benchmarks. Finally, a study of LLM users revealed that 94% of participants preferred ChartUIE-8K’s queries, with 93% deeming them aligned with real-world use cases. Core contributions are available as open-source at chartsquared.github.io, with ample qualitative examples.

arxiv情報

著者 Woosung Koh,Jang Han Yoon,MinHyung Lee,Youngjin Song,Jaegwan Cho,Jaehyun Kang,Taehyeon Kim,Se-Young Yun,Youngjae Yu,Bongshin Lee
発行日 2025-02-12 12:49:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | $C^2$: Scalable Auto-Feedback for LLM-based Chart Generation はコメントを受け付けていません

Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding

要約

注意メカニズムは、トランスベースの大手言語モデル(LLMS)の印象的な能力に不可欠です。
ただし、シーケンスの長さへの二次依存のため、注意を計算することは計算集中です。
Top-Thetaの注意と呼ばれる新しいアプローチ、または単にTop-$ \ Theta $を紹介します。これは、慎重に較正されたしきい値と比較することにより、あまり重要でない注意要素を選択的にプルーナします。
この方法は、モデルの精度を維持しながら、自己関節マトリックス増殖の効率を大幅に改善し、生成デコード中に必要なVキャッシュ行の数を3倍に減らし、Prefillフェーズでは10倍の注意要素の数を減らします。
私たちの方法では、モデル再訓練を必要としません。
代わりに、分布シフトに回復力があるための短いキャリブレーションフェーズのみが必要であるため、さまざまなデータセットのしきい値を再調整する必要はありません。
Top-Kの注意とは異なり、Top-$ \ Theta $はフルベクトルの依存関係を排除し、タイリングとスケールアウト、および費用のかかるTOP-K検索を回避するのに適しています。
私たちのアプローチの重要な革新は、効率的な数値補償技術の開発であり、注意スコアの積極的な剪定の下でもモデルの精度を維持するのに役立ちます。

要約(オリジナル)

The attention mechanism is essential for the impressive capabilities of transformer-based Large Language Models (LLMs). However, calculating attention is computationally intensive due to its quadratic dependency on the sequence length. We introduce a novel approach called Top-Theta Attention, or simply Top-$\theta$, which selectively prunes less essential attention elements by comparing them against carefully calibrated thresholds. This method greatly improves the efficiency of self-attention matrix multiplication while preserving model accuracy, reducing the number of required V cache rows by 3x during generative decoding and the number of attention elements by 10x during the prefill phase. Our method does not require model retraining; instead, it requires only a brief calibration phase to be resilient to distribution shifts, thus not requiring the thresholds for different datasets to be recalibrated. Unlike top-k attention, Top-$\theta$ eliminates full-vector dependency, making it suitable for tiling and scale-out and avoiding costly top-k search. A key innovation of our approach is the development of efficient numerical compensation techniques, which help preserve model accuracy even under aggressive pruning of attention scores.

arxiv情報

著者 Konstantin Berestizshevsky,Renzo Andri,Lukas Cavigelli
発行日 2025-02-12 12:50:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, cs.AI, cs.CL, I.2 | Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding はコメントを受け付けていません

U-shaped and Inverted-U Scaling behind Emergent Abilities of Large Language Models

要約

大規模な言語モデル(LLM)は、いくつかの下流タスクで緊急能力を示すことが示されています。このタスクでは、モデルのパフォーマンスが最初に停滞し、その後、しきい値を超えたスケールで鋭くかつ予測不可能に改善します。
この作業では、難易度に基づいて質問をグループ化することにより、現象を調査し、緊急能力の可能な説明を提供します。
具体的には、ハードな質問と逆UスケーリングのU字型スケーリングを観察し、それに続いて簡単な質問のために着実に改善します。
2つのスケーリングパターンは最初に互いに相殺され、全体的なパフォーマンスが停滞します。
簡単な質問のスケーリングパターンが逆から標準スケーリングに戻り、緊急の能力につながると、パフォーマンスが急上昇し始めます。
この発見に基づいて、スライスとサンドイッチと呼ばれるシンプルで効果的なパイプラインを提案して、しきい値を超えて出現のしきい値とモデルのパフォーマンスを予測します。
私たちのコードは、https://github.com/tony10101105/expemergenceで公開されています。

要約(オリジナル)

Large language models (LLMs) have been shown to exhibit emergent abilities in some downstream tasks, where model performance stagnates at first and then improves sharply and unpredictably with scale beyond a threshold. In this work, we investigate the phenomenon by grouping questions based on difficulty level and provide a possible explanation for emergent abilities. Specifically, we observe U-shaped scaling for hard questions and inverted-U scaling followed by steady improvement for easy questions. The two scaling patterns initially offset each other, causing stagnant overall performance. The performance starts to soar when the scaling pattern of easy questions reverts from inverse to standard scaling, leading to emergent abilities. Based on this finding, we propose a simple yet effective pipeline, called Slice-and-Sandwich, to predict the emergence threshold and model performance beyond the threshold. Our code is publicly available at https://github.com/tony10101105/ExpEmergence.

arxiv情報

著者 Tung-Yu Wu,Pei-Yu Lo
発行日 2025-02-12 13:03:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | U-shaped and Inverted-U Scaling behind Emergent Abilities of Large Language Models はコメントを受け付けていません

Unveiling Global Discourse Structures: Theoretical Analysis and NLP Applications in Argument Mining

要約

特にグローバルな談話の構造では、一貫性は人間のテキスト理解において極めて重要な役割を果たし、高品質のテキストの特徴です。
これは特に説得力のあるテキストに当てはまります。ここでは、コヒーレントな引数構造がクレームを効果的にサポートしています。
このペーパーでは、議論(ation)マイニングと呼ばれるプロセスでこれらのグローバルな談話構造を検出、抽出、および表現する方法について説明し、提案します。
談話構造分析の重要な用語とプロセスを定義し、問題に関する既存の研究を要約し、現在の引数コンポーネント抽出および分類方法の欠点を特定し続けます。
さらに、新しいNLP技術を利用することにより、現在の研究分野での課題を克服しながら、モデルをより一般化しやすくすることに焦点を当てた議論マイニングのアーキテクチャの概要を説明します。
このペーパーでは、現在の知識をレビューし、最近の作品を要約し、NLPパイプラインの概要を説明し、グローバルな談話構造の理論的理解に貢献することを目指しています。

要約(オリジナル)

Particularly in the structure of global discourse, coherence plays a pivotal role in human text comprehension and is a hallmark of high-quality text. This is especially true for persuasive texts, where coherent argument structures support claims effectively. This paper discusses and proposes methods for detecting, extracting and representing these global discourse structures in a proccess called Argument(ation) Mining. We begin by defining key terms and processes of discourse structure analysis, then continue to summarize existing research on the matter, and identify shortcomings in current argument component extraction and classification methods. Furthermore, we will outline an architecture for argument mining that focuses on making models more generalisable while overcoming challenges in the current field of research by utilizing novel NLP techniques. This paper reviews current knowledge, summarizes recent works, and outlines our NLP pipeline, aiming to contribute to the theoretical understanding of global discourse structures.

arxiv情報

著者 Christopher van Le
発行日 2025-02-12 13:03:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Unveiling Global Discourse Structures: Theoretical Analysis and NLP Applications in Argument Mining はコメントを受け付けていません

IssueBench: Millions of Realistic Prompts for Measuring Issue Bias in LLM Writing Assistance

要約

大規模な言語モデル(LLM)は、何百万人ものユーザーが多様な問題に関するテキストを書くのを支援しており、そうすることで、ユーザーをさまざまなアイデアや視点にさらすことができます。
これは、LLMが特定の問題について1つの視点しか提示する傾向がある傾向がある問題バイアスに関する懸念を生み出し、ユーザーがこの問題について考える方法に影響を与える可能性があります。
これまでのところ、実際のユーザーインタラクションでLLMが実際に現れるバイアスの問題を測定することは不可能であり、偏ったLLMSからのリスクに対処することを困難にしています。
したがって、Issue -Bench:LLMライティング支援の発行バイアスを測定するための2.49mの現実的なプロンプトのセットを作成します。これは、3.9kテンプレート(例:「ブログを書く」)と212の政治的問題(「AI Regulation」など)に基づいて構築します。
実際のユーザーインタラクションから。
IssueBenchを使用して、問題バイアスは最先端のLLMで一般的で持続的であることを示します。
また、バイアスはモデル間で著しく類似しており、すべてのモデルは、共和党の有権者の意見よりも多くの問題について、米国の民主党員と整合していることも示しています。
Issueベンチは、他の問題、テンプレート、またはタスクを含めるように簡単に適応できます。
堅牢で現実的な測定を可能にすることにより、Issue BenchがLLMバイアスとそれらに対処する方法に関する継続的な議論に新しい品質の証拠をもたらすことができることを願っています。

要約(オリジナル)

Large language models (LLMs) are helping millions of users write texts about diverse issues, and in doing so expose users to different ideas and perspectives. This creates concerns about issue bias, where an LLM tends to present just one perspective on a given issue, which in turn may influence how users think about this issue. So far, it has not been possible to measure which issue biases LLMs actually manifest in real user interactions, making it difficult to address the risks from biased LLMs. Therefore, we create IssueBench: a set of 2.49m realistic prompts for measuring issue bias in LLM writing assistance, which we construct based on 3.9k templates (e.g. ‘write a blog about’) and 212 political issues (e.g. ‘AI regulation’) from real user interactions. Using IssueBench, we show that issue biases are common and persistent in state-of-the-art LLMs. We also show that biases are remarkably similar across models, and that all models align more with US Democrat than Republican voter opinion on a subset of issues. IssueBench can easily be adapted to include other issues, templates, or tasks. By enabling robust and realistic measurement, we hope that IssueBench can bring a new quality of evidence to ongoing discussions about LLM biases and how to address them.

arxiv情報

著者 Paul Röttger,Musashi Hinck,Valentin Hofmann,Kobi Hackenburg,Valentina Pyatkin,Faeze Brahman,Dirk Hovy
発行日 2025-02-12 13:37:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | IssueBench: Millions of Realistic Prompts for Measuring Issue Bias in LLM Writing Assistance はコメントを受け付けていません

A Semantic Parsing Algorithm to Solve Linear Ordering Problems

要約

自ない推論を使用してエンティティをアレンジするためにモデルが必要とする線形順序付けの問題を意味的に解析するためのアルゴリズムを開発します。
私たちの方法は、多くの施設と候補の声明を入力し、順序付けドメインの1次ロジックにそれらを解析し、制約ロジックプログラミングを利用して、注文に関する提案された声明の真実を推測します。
セマンティックパーサーは、ハイムとクラッツァーの構文ベースの構成形式的セマンティックルールを計算アルゴリズムに変換します。
この変換には、ルールに基づいて抽象タイプとテンプレートを導入し、コンテキストフレームワーク内のエンティティを解釈する動的コンポーネントを導入します。
当社のシンボリックシステムである正式なセマンティックロジックインケーター(FSLI)は、Big-BenchのLogical_Deduction Multiple Choiceの問題で複数選択の質問に答えるために適用され、最高のパフォーマンスのLLM(GPT-4)と87.63の67.06%と比較して完全な精度を達成します。
ハイブリッドシステムLogic-LMの%。
これらの有望な結果は、1次論理構造によって駆動されるセマンティック解析アルゴリズムを開発することの利点を示しています。

要約(オリジナル)

We develop an algorithm to semantically parse linear ordering problems, which require a model to arrange entities using deductive reasoning. Our method takes as input a number of premises and candidate statements, parsing them to a first-order logic of an ordering domain, and then utilizes constraint logic programming to infer the truth of proposed statements about the ordering. Our semantic parser transforms Heim and Kratzer’s syntax-based compositional formal semantic rules to a computational algorithm. This transformation involves introducing abstract types and templates based on their rules, and introduces a dynamic component to interpret entities within a contextual framework. Our symbolic system, the Formal Semantic Logic Inferer (FSLI), is applied to answer multiple choice questions in BIG-bench’s logical_deduction multiple choice problems, achieving perfect accuracy, compared to 67.06% for the best-performing LLM (GPT-4) and 87.63% for the hybrid system Logic-LM. These promising results demonstrate the benefit of developing a semantic parsing algorithm driven by first-order logic constructs.

arxiv情報

著者 Maha Alkhairy,Vincent Homer,Brendan O’Connor
発行日 2025-02-12 13:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LO | A Semantic Parsing Algorithm to Solve Linear Ordering Problems はコメントを受け付けていません

NYT-Connections: A Deceptively Simple Text Classification Task that Stumps System-1 Thinkers

要約

大規模な言語モデル(LLM)は、さまざまなベンチマークで印象的なパフォーマンスを示していますが、意図的な推論に従事する能力は疑わしいままです。
NYT接続は、New York Times Connectionsゲームから派生した358の単語分類パズルのコレクションです。
このベンチマークは、迅速で直感的な「システム1」の思考を罰し、基本的な推論スキルを分離するように設計されています。
最近の6つのLLM、シンプルな機械学習ヒューリスティック、および3つの構成にわたる人間を評価しました。単一のアトリック、ヒントのない複数の試み、およびコンテキストヒントを使用した複数の試みです。
私たちの調査結果は、重大なパフォーマンスのギャップを明らかにしています。GPT-4のような最高のパフォーマンスのLLMでさえ、人間のパフォーマンスを30%近く下回っています。
特に、チェーンと自己整合性などの高度なプロンプト技術は、タスクの難易度が増加するにつれてリターンが減少することを示しています。
NYT接続は、言語の分離、直感的なショートカットに対する抵抗、およびデータの漏れを緩和するための定期的な更新を独自に組み合わせて、LLMの推論機能を評価するための新しいツールを提供します。

要約(オリジナル)

Large Language Models (LLMs) have shown impressive performance on various benchmarks, yet their ability to engage in deliberate reasoning remains questionable. We present NYT-Connections, a collection of 358 simple word classification puzzles derived from the New York Times Connections game. This benchmark is designed to penalize quick, intuitive ‘System 1’ thinking, isolating fundamental reasoning skills. We evaluated six recent LLMs, a simple machine learning heuristic, and humans across three configurations: single-attempt, multiple attempts without hints, and multiple attempts with contextual hints. Our findings reveal a significant performance gap: even top-performing LLMs like GPT-4 fall short of human performance by nearly 30%. Notably, advanced prompting techniques such as Chain-of-Thought and Self-Consistency show diminishing returns as task difficulty increases. NYT-Connections uniquely combines linguistic isolation, resistance to intuitive shortcuts, and regular updates to mitigate data leakage, offering a novel tool for assessing LLM reasoning capabilities.

arxiv情報

著者 Angel Yahir Loredo Lopez,Tyler McDonald,Ali Emami
発行日 2025-02-12 14:03:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | NYT-Connections: A Deceptively Simple Text Classification Task that Stumps System-1 Thinkers はコメントを受け付けていません

From Haystack to Needle: Label Space Reduction for Zero-shot Classification

要約

ラベルスペース削減(LSR)を提示します。これは、大規模な言語モデル(LLMS)のゼロショット分類パフォーマンスを改善するための新しい方法です。
LSRは、候補クラスを体系的にランキングおよび削減することにより、分類ラベルスペースを繰り返し改良し、モデルが最も関連性の高いオプションに集中できるようにします。
データ駆動型モデルの統計学習能力を使用して非標識データを活用することにより、LSRはテスト時にラベルスペース表現を動的に最適化します。
7つのベンチマークにわたる実験は、LSRがLLAMA-3.1-70Bで平均7.0%(最大14.2%)、標準ゼロと比較してClaude-3.5-Sonnetで3.3%(最大11.1%)を改善することを示しています。
– ショット分類ベースライン。
各反復で追加のLLMコールを必要とするLSRの計算オーバーヘッドを減らすために、モデルを確率分類子に蒸留し、効率的な推論を可能にします。

要約(オリジナル)

We present Label Space Reduction (LSR), a novel method for improving zero-shot classification performance of Large Language Models (LLMs). LSR iteratively refines the classification label space by systematically ranking and reducing candidate classes, enabling the model to concentrate on the most relevant options. By leveraging unlabeled data with the statistical learning capabilities of data-driven models, LSR dynamically optimizes the label space representation at test time. Our experiments across seven benchmarks demonstrate that LSR improves macro-F1 scores by an average of 7.0% (up to 14.2%) with Llama-3.1-70B and 3.3% (up to 11.1%) with Claude-3.5-Sonnet compared to standard zero-shot classification baselines. To reduce the computational overhead of LSR, which requires an additional LLM call at each iteration, we propose distilling the model into a probabilistic classifier, allowing for efficient inference.

arxiv情報

著者 Nathan Vandemoortele,Bram Steenwinckel,Femke Ongenae,Sofie Van Hoecke
発行日 2025-02-12 14:20:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | From Haystack to Needle: Label Space Reduction for Zero-shot Classification はコメントを受け付けていません