SPILL: Domain-Adaptive Intent Clustering based on Selection and Pooling with Large Language Models

要約

このホワイトペーパーでは、微調整せずに意図的なクラスタリングのための直感的でドメイン適応的な方法である大規模な言語モデル(Spill)を使用した選択とプールを提案します。
既存の埋め込みベースのクラスタリング方法は、新しいデータセットごとに結果を最適化するために、いくつかのラベル付き例または監視なしの微調整に依存しているため、複数のデータセットに一般化できません。
私たちの目標は、これらの既存の埋め込み剤を、それ以上微調整することなく、新しいドメインデータセットに対してより一般化できるようにすることです。
サンプリングおよびプーリング技術の有効性に関する理論的派生結果とシミュレーション結果に触発されて、クラスタリングタスクを小規模な選択問題と見なしています。
この問題の良い解決策は、クラスタリングパフォーマンスの向上に関連しています。
したがって、2段階のアプローチを提案します。まず、各発言(種子と呼ばれる)ごとに、既存の埋め込みを使用してその埋め込みを導き出します。
次に、距離メトリックを適用して、種子に近い候補者のプールを選択します。
エンバダーは新しいデータセットに最適化されていないため、第2段階では、LLMを使用して、シードと同じ意図を共有するこれらの候補者からの発話をさらに選択します。
最後に、これらの選択された候補者を種でプールして、種の洗練された埋め込みを導き出します。
私たちの方法は一般に、埋め込み剤を使用して直接パフォーマンスを発揮し、他の最先端の研究に匹敵する結果を達成することがわかりました。これは、はるかに大きなモデルを使用し、微調整を必要とし、その強度と効率を示しています。
我々の結果は、我々の方法により、既存の埋め込み機を追加の微調整なしでさらに改善し、新しいドメインデータセットにより適応性を高めることができることを示しています。
さらに、クラスタリングタスクを小規模な選択問題として表示すると、LLMを使用してユーザーの目標に応じてクラスタリングタスクをカスタマイズする可能性があります。

要約(オリジナル)

In this paper, we propose Selection and Pooling with Large Language Models (SPILL), an intuitive and domain-adaptive method for intent clustering without fine-tuning. Existing embeddings-based clustering methods rely on a few labeled examples or unsupervised fine-tuning to optimize results for each new dataset, which makes them less generalizable to multiple datasets. Our goal is to make these existing embedders more generalizable to new domain datasets without further fine-tuning. Inspired by our theoretical derivation and simulation results on the effectiveness of sampling and pooling techniques, we view the clustering task as a small-scale selection problem. A good solution to this problem is associated with better clustering performance. Accordingly, we propose a two-stage approach: First, for each utterance (referred to as the seed), we derive its embedding using an existing embedder. Then, we apply a distance metric to select a pool of candidates close to the seed. Because the embedder is not optimized for new datasets, in the second stage, we use an LLM to further select utterances from these candidates that share the same intent as the seed. Finally, we pool these selected candidates with the seed to derive a refined embedding for the seed. We found that our method generally outperforms directly using an embedder, and it achieves comparable results to other state-of-the-art studies, even those that use much larger models and require fine-tuning, showing its strength and efficiency. Our results indicate that our method enables existing embedders to be further improved without additional fine-tuning, making them more adaptable to new domain datasets. Additionally, viewing the clustering task as a small-scale selection problem gives the potential of using LLMs to customize clustering tasks according to the user’s goals.

arxiv情報

著者 I-Fan Lin,Faegheh Hasibi,Suzan Verberne
発行日 2025-06-02 10:04:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SPILL: Domain-Adaptive Intent Clustering based on Selection and Pooling with Large Language Models はコメントを受け付けていません

Knowing Before Saying: LLM Representations Encode Information About Chain-of-Thought Success Before Completion

要約

ゼロショットチェーンオブサートチェーン(COT)プロセスの成功を、完了前に予測できるかどうかを調査します。
LLM表現に基づいたプロービング分類器は、1つのトークンが生成される前であっても}を十分に実行することを発見し、推論プロセスに関する重要な情報が初期のステップ表現にすでに存在していることを示唆しています。
対照的に、生成されたトークンのみに依存する強力なバートベースのベースラインは、より深い推論ダイナミクスではなく、浅い言語の手がかりに依存するため、さらに悪化します。
驚くべきことに、後の推論手順を使用すると、常に分類が改善されるとは限りません。
追加のコンテキストが役に立たない場合、以前の表現は後の表現に似ており、LLMSが主要な情報を早期にエンコードすることを示唆しています。
これは、推論がしばしば損失なく早めに停止する可能性があることを意味します。
これをテストするために、早期に停止する実験を実施し、COTの推論を切り捨てることは、完全な推論と比較してギャップが残っていますが、COTをまったく使用しないことよりもパフォーマンスを改善することを示しています。
ただし、COTチェーンを短縮するために設計された監視された学習や強化学習などのアプローチは、分類器のガイダンスを活用して、早期停止が効果的である場合を特定することができます。
私たちの調査結果は、そのような方法をサポートする可能性のある洞察を提供し、その利点を維持しながらCOTの効率を最適化するのに役立ちます。

要約(オリジナル)

We investigate whether the success of a zero-shot Chain-of-Thought (CoT) process can be predicted before completion. We discover that a probing classifier, based on LLM representations, performs well \emph{even before a single token is generated}, suggesting that crucial information about the reasoning process is already present in the initial steps representations. In contrast, a strong BERT-based baseline, which relies solely on the generated tokens, performs worse, likely because it depends on shallow linguistic cues rather than deeper reasoning dynamics. Surprisingly, using later reasoning steps does not always improve classification. When additional context is unhelpful, earlier representations resemble later ones more, suggesting LLMs encode key information early. This implies reasoning can often stop early without loss. To test this, we conduct early stopping experiments, showing that truncating CoT reasoning still improves performance over not using CoT at all, though a gap remains compared to full reasoning. However, approaches like supervised learning or reinforcement learning designed to shorten CoT chains could leverage our classifier’s guidance to identify when early stopping is effective. Our findings provide insights that may support such methods, helping to optimize CoT’s efficiency while preserving its benefits.

arxiv情報

著者 Anum Afzal,Florian Matthes,Gal Chechik,Yftah Ziser
発行日 2025-06-02 10:26:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Knowing Before Saying: LLM Representations Encode Information About Chain-of-Thought Success Before Completion はコメントを受け付けていません

TAG-INSTRUCT: Controlled Instruction Complexity Enhancement through Structure-based Augmentation

要約

高品質の命令データは、大規模な言語モデル(LLM)を開発するために重要ですが、既存のアプローチは、命令の複雑さを効果的に制御するために苦労しています。
TAG-Instructを提示します。これは、構造化されたセマンティック圧縮と制御された困難の増強を通じて命令の複雑さを高める新しいフレームワークです。
RAWテキストで動作する以前のプロンプトベースの方法とは異なり、Tag-Instructは命令をコンパクトなタグ空間に圧縮し、RLガイド付きタグ拡張を通じて体系的に複雑さを高めます。
大規模な実験を通じて、タグインストラクションが既存の命令の複雑さの増強アプローチよりも優れていることを示します。
私たちの分析により、タグ空間で動作すると、さまざまな命令合成フレームワーク全体で優れた制御可能性と安定性が提供されることが明らかになりました。

要約(オリジナル)

High-quality instruction data is crucial for developing large language models (LLMs), yet existing approaches struggle to effectively control instruction complexity. We present TAG-INSTRUCT, a novel framework that enhances instruction complexity through structured semantic compression and controlled difficulty augmentation. Unlike previous prompt-based methods operating on raw text, TAG-INSTRUCT compresses instructions into a compact tag space and systematically enhances complexity through RL-guided tag expansion. Through extensive experiments, we show that TAG-INSTRUCT outperforms existing instruction complexity augmentation approaches. Our analysis reveals that operating in tag space provides superior controllability and stability across different instruction synthesis frameworks.

arxiv情報

著者 He Zhu,Zhiwen Ruan,Junyou Su,Xingwei He,Yun Chen,Wenjia Zhang,Guanhua Chen
発行日 2025-06-02 11:00:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TAG-INSTRUCT: Controlled Instruction Complexity Enhancement through Structure-based Augmentation はコメントを受け付けていません

Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual LLMs: An Extensive Investigation

要約

最近の生成大規模な言語モデル(LLMS)は、英語以外の言語で顕著なパフォーマンスを示していますが、それらの言語で促されると、より高い有害な社会的偏見と毒性レベルを表現する傾向があります。
以前の作業では、特殊なデータセットでの微調整がこの動作を軽減できることを示しており、英語でそうすることで他の言語に転送できることが示されています。
この作業では、モデルのバイアスと毒性に対するさまざまな微調整方法の影響を調査しますが、流fluentで多様なテキストを生成する能力についても調査します。
キュレーションされた非薬物テキストで微調整することによりバイアスを減らしますが、毒性の緩和に効果的であるため、直接的な優先順位の最適化のみが見つかります。
これらの方法を英語で適用することによって引き起こされる緩和も、英語以外の言語に転送されます。
転送が行われる程度は、モデルの前削減データに存在する特定の言語のデータの量によって予測できるという証拠を見つけます。
ただし、このバイアスと毒性緩和の移転は、英語以外の言語で言語生成能力の低下を犠牲にして、言語固有のバイアスと毒性緩和方法の開発の重要性を強調することがよくあります。

要約(オリジナル)

Recent generative large language models (LLMs) show remarkable performance in non-English languages, but when prompted in those languages they tend to express higher harmful social biases and toxicity levels. Prior work has shown that finetuning on specialized datasets can mitigate this behavior, and doing so in English can transfer to other languages. In this work, we investigate the impact of different finetuning methods on the model’s bias and toxicity, but also on its ability to produce fluent and diverse text. We reduce biases by finetuning on curated non-harmful text, but find only direct preference optimization to be effective for mitigating toxicity. The mitigation caused by applying these methods in English also transfers to non-English languages. We find evidence that the extent to which transfer takes place can be predicted by the amount of data in a given language present in the model’s pretraining data. However, this transfer of bias and toxicity mitigation often comes at the expense of decreased language generation ability in non-English languages, highlighting the importance of developing language-specific bias and toxicity mitigation methods.

arxiv情報

著者 Vera Neplenbroek,Arianna Bisazza,Raquel Fernández
発行日 2025-06-02 11:03:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual LLMs: An Extensive Investigation はコメントを受け付けていません

KnowShiftQA: How Robust are RAG Systems when Textbook Knowledge Shifts in K-12 Education?

要約

検索された生成(RAG)システムは、K-12教育ドメインの質問回答ツールとして顕著な可能性を示します。ここでは、知識は通常、権威ある教科書の制限された範囲内で照会されます。
ただし、これらの教科書と大規模な言語モデル(LLM)に固有のパラメトリック知識との間の矛盾は、RAGシステムの有効性を損なう可能性があります。
このような知識の不一致に対するRAGシステムの堅牢性を体系的に調査するために、wenshiftqaを紹介します。
この新しい質問に答えるデータセットは、回答とソースドキュメントの両方に意図的な仮説知識の更新を適用し、教科書の知識がどのように変化するかを反映することにより、これらの不一致をシミュレートします。
KnoshiftQAは、コンテキスト利用と知識統合に焦点を当てた包括的な質問類型で設計された5つの主題にわたる3,005の質問で構成されています。
検索と質問の回答パフォーマンスに関する広範な実験により、ほとんどのRAGシステムは、これらの知識の矛盾に直面した場合、かなりのパフォーマンス低下に苦しんでいることが明らかになりました。
さらに、パラメトリック(LLM)の知識とコンテキスト(教科書)の知識を統合する必要がある質問は、現在のLLMに大きな課題をもたらします。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) systems show remarkable potential as question answering tools in the K-12 Education domain, where knowledge is typically queried within the restricted scope of authoritative textbooks. However, discrepancies between these textbooks and the parametric knowledge inherent in Large Language Models (LLMs) can undermine the effectiveness of RAG systems. To systematically investigate RAG system robustness against such knowledge discrepancies, we introduce KnowShiftQA. This novel question answering dataset simulates these discrepancies by applying deliberate hypothetical knowledge updates to both answers and source documents, reflecting how textbook knowledge can shift. KnowShiftQA comprises 3,005 questions across five subjects, designed with a comprehensive question typology focusing on context utilization and knowledge integration. Our extensive experiments on retrieval and question answering performance reveal that most RAG systems suffer a substantial performance drop when faced with these knowledge discrepancies. Furthermore, questions requiring the integration of contextual (textbook) knowledge with parametric (LLM) knowledge pose a significant challenge to current LLMs.

arxiv情報

著者 Tianshi Zheng,Weihan Li,Jiaxin Bai,Weiqi Wang,Yangqiu Song
発行日 2025-06-02 11:22:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | KnowShiftQA: How Robust are RAG Systems when Textbook Knowledge Shifts in K-12 Education? はコメントを受け付けていません

LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks

要約

人間の判断の代わりにLLMを使用してNLPモデルを評価し、これらの評価の妥当性に関する疑問を提起する傾向、および独自のモデルの場合の再現性が増加する傾向が増えています。
幅広い評価された特性とタイプのデータをカバーするヒト注釈を備えた20のNLPデータセットの拡張可能なコレクションである裁判官ベンチを提供し、注釈を再現する能力について、オープンウェイトと独自のモデルの両方をカバーする11の現在のLLMを包括的に評価します。
私たちの評価は、モデルとデータセット間でかなりのばらつきを示しています。
モデルはいくつかのタスクで信頼できる評価者ですが、評価対象のプロパティ、人間の裁判官の専門知識レベル、および言語が人間であるかモデルで生成されているかに応じて、全体的に大きな変動性を示します。
LLMは、評価者として使用される前に、人間の判断に対して慎重に検証されるべきであると結論付けています。

要約(オリジナル)

There is an increasing trend towards evaluating NLP models with LLMs instead of human judgments, raising questions about the validity of these evaluations, as well as their reproducibility in the case of proprietary models. We provide JUDGE-BENCH, an extensible collection of 20 NLP datasets with human annotations covering a broad range of evaluated properties and types of data, and comprehensively evaluate 11 current LLMs, covering both open-weight and proprietary models, for their ability to replicate the annotations. Our evaluations show substantial variance across models and datasets. Models are reliable evaluators on some tasks, but overall display substantial variability depending on the property being evaluated, the expertise level of the human judges, and whether the language is human or model-generated. We conclude that LLMs should be carefully validated against human judgments before being used as evaluators.

arxiv情報

著者 Anna Bavaresco,Raffaella Bernardi,Leonardo Bertolazzi,Desmond Elliott,Raquel Fernández,Albert Gatt,Esam Ghaleb,Mario Giulianelli,Michael Hanna,Alexander Koller,André F. T. Martins,Philipp Mondorf,Vera Neplenbroek,Sandro Pezzelle,Barbara Plank,David Schlangen,Alessandro Suglia,Aditya K Surikuchi,Ece Takmaz,Alberto Testoni
発行日 2025-06-02 11:31:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks はコメントを受け付けていません

Implicit Reasoning in Transformers is Reasoning through Shortcuts

要約

OpenaiのO1とO3の成功とDeepseekのR1の成功によって示されるように、テスト時間計算は、言語モデルの複雑なマルチステップ推論機能を強化するための新しいパラダイムとして浮上しています。
テスト時間計算における明示的な推論と比較して、暗黙的な推論はより推論効率が高く、生成されたトークンが少ない必要があります。
しかし、なぜ高度な推論能力が暗黙の推論スタイルで出現できないのですか?
この作業では、キュートされたマルチステップ数学的推論データセットでGPT-2をゼロから訓練し、分析実験を実施して、言語モデルがマルチステップタスクで暗黙の推論を実行する方法を調査します。
私たちの調査結果は、1)言語モデルが段階的な推論を実行し、暗黙の推論を介して領域内および領域外テストの両方で高い精度を達成することができます。
ただし、この機能は、固定パターンデータでトレーニングされた場合にのみ出現します。
2)逆に、無解像度のパターンデータのトレーニングから生じる暗黙の推論能力は、特定のパターンに過剰に適合し、さらに一般化することができない傾向があります。
特に、この制限は、最先端の大規模な言語モデルでも観察されます。
これらの調査結果は、言語モデルがショートカット学習を通じて暗黙的な推論を獲得し、一般化を欠いている間、同様のパターンのタスクで強力なパフォーマンスを可能にすることを示唆しています。

要約(オリジナル)

Test-time compute is emerging as a new paradigm for enhancing language models’ complex multi-step reasoning capabilities, as demonstrated by the success of OpenAI’s o1 and o3, as well as DeepSeek’s R1. Compared to explicit reasoning in test-time compute, implicit reasoning is more inference-efficient, requiring fewer generated tokens. However, why does the advanced reasoning capability fail to emerge in the implicit reasoning style? In this work, we train GPT-2 from scratch on a curated multi-step mathematical reasoning dataset and conduct analytical experiments to investigate how language models perform implicit reasoning in multi-step tasks. Our findings reveal: 1) Language models can perform step-by-step reasoning and achieve high accuracy in both in-domain and out-of-domain tests via implicit reasoning. However, this capability only emerges when trained on fixed-pattern data. 2) Conversely, implicit reasoning abilities emerging from training on unfixed-pattern data tend to overfit a specific pattern and fail to generalize further. Notably, this limitation is also observed in state-of-the-art large language models. These findings suggest that language models acquire implicit reasoning through shortcut learning, enabling strong performance on tasks with similar patterns while lacking generalization.

arxiv情報

著者 Tianhe Lin,Jian Xie,Siyu Yuan,Deqing Yang
発行日 2025-06-02 12:06:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Implicit Reasoning in Transformers is Reasoning through Shortcuts はコメントを受け付けていません

SpeechT: Findings of the First Mentorship in Speech Translation

要約

この作品は、2024年12月と2025年1月に開催されたスピーチ翻訳の最初のメンターシップ(SpeechT)の詳細と調査結果を提示します。メンターシップの要件を満たすために、参加者はデータの準備、モデリング、高度な研究などの主要な活動に従事しました。
参加者は、データ増強技術を調査し、エンドツーエンドとカスケードの音声翻訳システムを比較しました。
プロジェクトは、アラビア語、ベンガル語、ガリシア語、インドネシア語、日本語、スペイン語など、英語以外のさまざまな言語を対象としています。

要約(オリジナル)

This work presents the details and findings of the first mentorship in speech translation (SpeechT), which took place in December 2024 and January 2025. To fulfil the mentorship requirements, the participants engaged in key activities, including data preparation, modelling, and advanced research. The participants explored data augmentation techniques and compared end-to-end and cascaded speech translation systems. The projects covered various languages other than English, including Arabic, Bengali, Galician, Indonesian, Japanese, and Spanish.

arxiv情報

著者 Yasmin Moslem,Juan Julián Cea Morán,Mariano Gonzalez-Gomez,Muhammad Hazim Al Farouq,Farah Abdou,Satarupa Deb
発行日 2025-06-02 12:11:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD | SpeechT: Findings of the First Mentorship in Speech Translation はコメントを受け付けていません

Discriminating Form and Meaning in Multilingual Models with Minimal-Pair ABX Tasks

要約

一連のトレーニングなしのABXスタイルの差別タスクを導入して、多言語モデルが言語のアイデンティティ(フォーム)とセマンティックコンテンツ(意味)をどのように表すかを評価します。
音声処理からインスピレーションを得て、これらのゼロショットタスクは、表現の最小限の違いを確実に検出できるかどうかを測定します。
これにより、プロービングの柔軟で解釈可能な代替手段が提供されます。
XLM-R(Conneau et al、2020)に事前登録チェックポイントとレイヤーに適用されると、言語差別はトレーニング上で減少し、下層に集中することがわかりますが、識別は時間の経過とともに強化され、より深い層で安定化します。
次に、調査タスクを調査し、メトリックと言語学習パフォーマンスの間の整合性を示します。
結果は、多言語表現の構造を分析するための軽量フレームワークとしてABXのタスクを位置付けています。

要約(オリジナル)

We introduce a set of training-free ABX-style discrimination tasks to evaluate how multilingual language models represent language identity (form) and semantic content (meaning). Inspired from speech processing, these zero-shot tasks measure whether minimal differences in representation can be reliably detected. This offers a flexible and interpretable alternative to probing. Applied to XLM-R (Conneau et al, 2020) across pretraining checkpoints and layers, we find that language discrimination declines over training and becomes concentrated in lower layers, while meaning discrimination strengthens over time and stabilizes in deeper layers. We then explore probing tasks, showing some alignment between our metrics and linguistic learning performance. Our results position ABX tasks as a lightweight framework for analyzing the structure of multilingual representations.

arxiv情報

著者 Maureen de Seyssel,Jie Chi,Skyler Seto,Maartje ter Hoeve,Masha Fedzechkina,Natalie Schluter
発行日 2025-06-02 12:51:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Discriminating Form and Meaning in Multilingual Models with Minimal-Pair ABX Tasks はコメントを受け付けていません

Bemba Speech Translation: Exploring a Low-Resource African Language

要約

このホワイトペーパーでは、スポークン言語翻訳に関する国際会議(IWSLT 2025)、低リソース言語トラック、つまりベンバから英語への音声翻訳のためのシステムへのシステムの提出について説明します。
WhisperとNLLB-200に基づいてカスケードされた音声翻訳システムを構築し、逆翻訳などのデータ増強技術を採用しました。
合成データを使用する効果を調査し、実験セットアップについて説明します。

要約(オリジナル)

This paper describes our system submission to the International Conference on Spoken Language Translation (IWSLT 2025), low-resource languages track, namely for Bemba-to-English speech translation. We built cascaded speech translation systems based on Whisper and NLLB-200, and employed data augmentation techniques, such as back-translation. We investigate the effect of using synthetic data and discuss our experimental setup.

arxiv情報

著者 Muhammad Hazim Al Farouq,Aman Kassahun Wassie,Yasmin Moslem
発行日 2025-06-02 12:55:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Bemba Speech Translation: Exploring a Low-Resource African Language はコメントを受け付けていません