Asking Again and Again: Exploring LLM Robustness to Repeated Questions

要約

この研究では、プロンプト内で質問を繰り返すことで、大規模な言語モデル(LLMS)のパフォーマンスに影響するかどうかを調査します。
単一のプロンプト内で質問を繰り返すと、クエリの重要な要素にモデルの焦点が強化される可能性があると仮定します。
GPT-4O-MINI、DeepSeek-V3、および小規模なオープンソースモデルを含む5つの最近のLLMを、異なるプロンプト設定の下で3つの読解データセットで評価します。
私たちの結果は、質問の繰り返しがモデルの精度を最大6ドル\%$増加させることができることを示しています。
ただし、すべてのモデル、設定、およびデータセットにわたって、結果が統計的に有意であるとは見当たりません。
これらの調査結果は、迅速な設計とLLMの動作に関する洞察を提供し、繰り返しだけでは出力品質に大きな影響を与えないことを示唆しています。

要約(オリジナル)

This study investigates whether repeating questions within prompts influences the performance of large language models (LLMs). We hypothesize that reiterating a question within a single prompt might enhance the model’s focus on key elements of the query. We evaluate five recent LLMs — including GPT-4o-mini, DeepSeek-V3, and smaller open-source models — on three reading comprehension datasets under different prompt settings, varying question repetition levels (1, 3, or 5 times per prompt). Our results demonstrate that question repetition can increase models’ accuracy by up to $6\%$. However, across all models, settings, and datasets, we do not find the result statistically significant. These findings provide insights into prompt design and LLM behavior, suggesting that repetition alone does not significantly impact output quality.

arxiv情報

著者 Sagi Shaier,Mario Sanz-Guerrero,Katharina von der Wense
発行日 2025-03-12 13:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Asking Again and Again: Exploring LLM Robustness to Repeated Questions はコメントを受け付けていません

Got Compute, but No Data: Lessons From Post-training a Finnish LLM

要約

LLMSがチャットボットや一般的なアシスタントとしてより多くの人気を得るにつれて、LLMが指示に従い、人間の好みに合わせて整列できるようにする方法が開発されています。
これらの方法はこの分野で成功を収めていますが、それらの有効性は高リソース言語以外では実証されていません。
この作業では、英語とフィンランド語の指導を受けるためのトレーニング後のLLMでの経験について説明します。
多言語LLMを使用して、英語からフィンランド語に命令と優先データセットを翻訳します。
英語とフィンランド語で指導の調整と好みの最適化を実行し、両方の言語でモデルの指導に従う機能を評価します。
私たちの結果は、数百のフィンランドの指導サンプルで、フィンランドの指導において競争力のあるパフォーマンスを得ることができることを示しています。
また、英語の優先最適化にはいくつかの言語間の利点がありますが、両方の言語の優先データを使用して最良の結果を得ることがわかりました。
https://huggingface.co/lumiopen/poro-34b-chat-openassistantでオープンライセンスの下でモデル、データセット、およびレシピをリリースします

要約(オリジナル)

As LLMs gain more popularity as chatbots and general assistants, methods have been developed to enable LLMs to follow instructions and align with human preferences. These methods have found success in the field, but their effectiveness has not been demonstrated outside of high-resource languages. In this work, we discuss our experiences in post-training an LLM for instruction-following for English and Finnish. We use a multilingual LLM to translate instruction and preference datasets from English to Finnish. We perform instruction tuning and preference optimization in English and Finnish and evaluate the instruction-following capabilities of the model in both languages. Our results show that with a few hundred Finnish instruction samples we can obtain competitive performance in Finnish instruction-following. We also found that although preference optimization in English offers some cross-lingual benefits, we obtain our best results by using preference data from both languages. We release our model, datasets, and recipes under open licenses at https://huggingface.co/LumiOpen/Poro-34B-chat-OpenAssistant

arxiv情報

著者 Elaine Zosa,Ville Komulainen,Sampo Pyysalo
発行日 2025-03-12 13:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Got Compute, but No Data: Lessons From Post-training a Finnish LLM はコメントを受け付けていません

Towards Generating Automatic Anaphora Annotations

要約

さまざまなNLPタスクでうまく機能する可能性のあるトレーニングモデルには、大量のデータが必要であり、これはANAPHORAやConference Resolutionなどの微妙なタスクでより明確になります。
手動の金注釈付きデータを作成することの法外なコストに対処するために、このペーパーでは、CoreFerferentialentallyアノテーションを使用してデータセットを自動的に作成する2つの方法を調査します。
既存のデータセットからの直接変換、および新しい言語や目に見えない言語を処理できる多言語モデルを使用して解析します。
この論文では、これらの2つの面での現在の進捗状況、および現在直面している努力の課題と、これらの課題を克服するための私たちのアプローチについて詳しく説明しています。

要約(オリジナル)

Training models that can perform well on various NLP tasks require large amounts of data, and this becomes more apparent with nuanced tasks such as anaphora and conference resolution. To combat the prohibitive costs of creating manual gold annotated data, this paper explores two methods to automatically create datasets with coreferential annotations; direct conversion from existing datasets, and parsing using multilingual models capable of handling new and unseen languages. The paper details the current progress on those two fronts, as well as the challenges the efforts currently face, and our approach to overcoming these challenges.

arxiv情報

著者 Dima Taji,Daniel Zeman
発行日 2025-03-12 14:15:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards Generating Automatic Anaphora Annotations はコメントを受け付けていません

Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models

要約

横断的転送により、ビジョン言語モデル(VLM)は、1つの言語でのみトレーニングデータを使用して、さまざまな言語でビジョンタスクを実行できます。
現在のアプローチは、事前に訓練された大規模な多言語モデルに依存しています。
しかし、彼らは多言語性の呪いに直面し、多言語の能力のために下流のタスクパフォ​​ーマンスを犠牲にし、語彙的曖昧さに苦しみ、最近の進歩に遅れをとっています。
この作業では、モデルサイズと見たトレーニングサンプルの影響に焦点を当てた多言語タスクの単一言語VLMを使用した体系的一般化のスケーリング法則を研究します。
0.4Bから11.2Bのパラメーターを備えた単一言語エンコーダーデコダーVLMであるFlorenzを提案します。
Florenzは、画像キャプションの意図的に不完全な言語カバレッジを特徴とする合成データセット上のさまざまな計算予算でトレーニングされているため、完全に覆われた翻訳タスクから一般化をテストします。
間接的に目に見えないタスク言語のペアがスケーリング法に付着するだけでなく、データ生成パイプラインと提案されたFlorenzモデルファミリーでも、翻訳タスクのデータのみが利用可能であっても、特定の言語で画像キャプション能力が出現する可能性があることを示しています。
ダウンストリームデータセットの組み合わせで微調整すると、競争力のあるパフォーマンスが得られ、マルチモーダルマシン翻訳(Multi30K、通勤)、語彙乱用(通勤)、および画像キャプション(Multi30K、XM3600、Coco Karpathy)の有望なスケーリング傾向が示されます。

要約(オリジナル)

Cross-lingual transfer enables vision-language models (VLMs) to perform vision tasks in various languages with training data only in one language. Current approaches rely on large pre-trained multilingual language models. However, they face the curse of multilinguality, sacrificing downstream task performance for multilingual capabilities, struggling with lexical ambiguities, and falling behind recent advances. In this work, we study the scaling laws of systematic generalization with monolingual VLMs for multilingual tasks, focusing on the impact of model size and seen training samples. We propose Florenz, a monolingual encoder-decoder VLM with 0.4B to 11.2B parameters combining the pre-trained VLM Florence-2 and the large language model Gemma-2. Florenz is trained with varying compute budgets on a synthetic dataset that features intentionally incomplete language coverage for image captioning, thus, testing generalization from the fully covered translation task. We show that not only does indirectly learning unseen task-language pairs adhere to a scaling law, but also that with our data generation pipeline and the proposed Florenz model family, image captioning abilities can emerge in a specific language even when only data for the translation task is available. Fine-tuning on a mix of downstream datasets yields competitive performance and demonstrates promising scaling trends in multimodal machine translation (Multi30K, CoMMuTE), lexical disambiguation (CoMMuTE), and image captioning (Multi30K, XM3600, COCO Karpathy).

arxiv情報

著者 Julian Spravil,Sebastian Houben,Sven Behnke
発行日 2025-03-12 14:41:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models はコメントを受け付けていません

Explicit Learning and the LLM in Machine Translation

要約

この研究では、明示的な学習のための大規模な言語モデル(LLMS)の能力を調査します。これは、言語タスクを実行するためのメタン言語的説明の同化を含むプロセスです。
制御されたテスト環境として暗号化手段によって生成された構築された言語を使用して、文法ルールを明示的に学習および適用するLLMの能力を評価するための実験を設計しました。
我々の結果は、LLMSが明示的な学習のための測定可能な能力を持っているが、この能力は、手元の言語現象の複雑さが増加するにつれて減少することを示しています。
思考の鎖で監視された微調整はLLMのパフォーマンスを大幅に向上させますが、類型的に斬新な、またはより複雑な言語的特徴に一般化するのに苦労しています。
これらの調査結果は、LLMによる明示的な学習をさらに改善するための、より多様なトレーニングセットと代替の微調整戦略の必要性を指摘しています。

要約(オリジナル)

This study explores the capacity of large language models (LLMs) for explicit learning, a process involving the assimilation of metalinguistic explanations to carry out language tasks. Using constructed languages generated by cryptographic means as controlled test environments, we designed experiments to assess an LLM’s ability to explicitly learn and apply grammar rules. Our results demonstrate that while LLMs possess a measurable capacity for explicit learning, this ability diminishes as the complexity of the linguistic phenomena at hand increases. Supervised fine-tuning on chains of thought significantly enhances LLM performance but struggles to generalize to typologically novel or more complex linguistic features. These findings point to the need for more diverse training sets and alternative fine-tuning strategies to further improve explicit learning by LLMs.

arxiv情報

著者 Malik Marmonier,Rachel Bawden,Benoît Sagot
発行日 2025-03-12 14:57:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Explicit Learning and the LLM in Machine Translation はコメントを受け付けていません

BAMBI: Developing Baby Language Models for Italian

要約

このペーパーでは、5歳のイタリア語を話す子供が受け取った言語入力を模倣するデータで訓練された一連のベビー言語モデル(Babylms)であるBambi(Baby Language Models Boostrapped)を紹介します。
BAMBIモデルは、受信したモデルのトレーニング入力の量を考慮した言語モデルを評価するために特別に設計されたベンチマークを使用してテストされます。
BAMBIモデルは、大規模な言語モデル(LLM)とマルチモーダル言語モデル(VLM)と比較され、言語習得のための関節外情報の貢献を研究します。
私たちの評価の結果は、英語モデルに関する既存の文献と一致しており、トレーニングデータの減少が比較的堅牢な構文能力の開発をサポートしている一方で、意味的理解を促進するには不十分であることを確認しています。
ただし、BAMBIモデルとLLMSのトレーニングリソース(データと計算)のギャップは、パフォーマンスに完全に反映されていません。LLMSの大規模なトレーニングにもかかわらず、そのパフォーマンスはBAMBIモデルのパフォーマンスよりもはるかに優れていません。
これは、データキュレーション、マルチモーダル入力の含有、カリキュラム学習などの他のトレーニング戦略などのトレーニングリソースのスケーリングを超えた戦略が、モデルのパフォーマンスを形成する上で重要な役割を果たすことができることを示唆しています。

要約(オリジナル)

This paper presents BAMBI (BAby language Models Boostrapped for Italian), a series of Baby Language Models (BabyLMs) trained on data that mimic the linguistic input received by a five-year-old Italian-speaking child. The BAMBI models are tested using a benchmark specifically designed to evaluate language models, which takes into account the amount of training input the models received. The BAMBI models are compared against a large language model (LLM) and a multimodal language model (VLM) to study the contribution of extralinguistic information for language acquisition. The results of our evaluation align with the existing literature on English language models, confirming that while reduced training data support the development of relatively robust syntactic competence, they are insufficient for fostering semantic understanding. However, the gap between the training resources (data and computation) of the BAMBI models and the LLMs is not fully reflected in their performance: despite LLMs’ massive training, their performance is not much better than that of BAMBI models. This suggests that strategies beyond scaling training resources, such as data curation, inclusion of multimodal input, and other training strategies such as curriculum learning, could play a crucial role in shaping model performance.

arxiv情報

著者 Alice Suozzi,Luca Capone,Gianluca E. Lebani,Alessandro Lenci
発行日 2025-03-12 15:36:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BAMBI: Developing Baby Language Models for Italian はコメントを受け付けていません

Finite State Automata Inside Transformers with Chain-of-Thought: A Mechanistic Study on State Tracking

要約

チェーンオブ思考(COT)は、幅広いタスクにわたって大規模な言語モデル(LLMS)のパフォーマンスを大幅に向上させ、以前の研究では、COTが理論的に表現力を高めることができることが示されています。
ただし、トランス+COTが学習できるアルゴリズムの機構的理解は限られています。
この作業では、(1)トランス+COTとそのバリアントの状態追跡能力を評価し、COTの有効性を確認します。
(2)次に、世界の状態の追跡を担当するモデルコンポーネントのサブセットである回路を特定し、後層MLPニューロンが重要な役割を果たしていることを発見します。
圧縮と区別の2つのメトリックを提案し、各状態のニューロンセットがほぼ100%の精度を達成し、モデル内に埋め込まれた暗黙の有限状態オートマトン(FSA)の証拠を提供することを示します。
(3)さらに、3つの現実的な設定を調査します。中間ステップのスキップ、データノイズの導入、およびテストの長さの一般化です。
私たちの結果は、Transformer+CoTが堅牢なアルゴリズム(FSA)を学習し、挑戦的なシナリオでの回復力を強調していることを示しています。

要約(オリジナル)

Chain-of-Thought (CoT) significantly enhances the performance of large language models (LLMs) across a wide range of tasks, and prior research shows that CoT can theoretically increase expressiveness. However, there is limited mechanistic understanding of the algorithms that Transformer+CoT can learn. In this work, we (1) evaluate the state tracking capabilities of Transformer+CoT and its variants, confirming the effectiveness of CoT. (2) Next, we identify the circuit, a subset of model components, responsible for tracking the world state, finding that late-layer MLP neurons play a key role. We propose two metrics, compression and distinction, and show that the neuron sets for each state achieve nearly 100% accuracy, providing evidence of an implicit finite state automaton (FSA) embedded within the model. (3) Additionally, we explore three realistic settings: skipping intermediate steps, introducing data noise, and testing length generalization. Our results demonstrate that Transformer+CoT learns robust algorithms (FSA), highlighting its resilience in challenging scenarios.

arxiv情報

著者 Yifan Zhang,Wenyu Du,Dongming Jin,Jie Fu,Zhi Jin
発行日 2025-03-12 15:47:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Finite State Automata Inside Transformers with Chain-of-Thought: A Mechanistic Study on State Tracking はコメントを受け付けていません

Independence Tests for Language Models

要約

次の問題を検討します。2つのモデルの重みを考えると、それらが独立して訓練されているかどうか、つまり独立したランダム初期化からテストできますか?
制約と制約のない2つの設定を検討します。
制約された設定では、モデルアーキテクチャとトレーニングについて仮定を立て、モデルが独立したランダム初期化からトレーニングされているという帰無仮説に関して正確なp値を生成する統計テストのファミリーを提案します。
これらのp値は、いずれかのモデルのトレーニングデータの構成に関係なく有効です。
仮定の下で各モデルの交換可能なコピーをシミュレートし、元の2つのモデルとこれらのコピーとの間の重みと活性化のさまざまな類似性測定値を比較することにより、それらを計算します。
これらのテストのp値を21のオープンウェイトモデル(合計210ペア)のペアで報告し、非独立モデルのすべてのペアを正しく識別します。
多くのトークンで1つのモデルが微調整されたとしても、私たちのテストは引き続き効果的です。
制約のない設定では、トレーニング手順について仮定しない場合、モデルアーキテクチャを変更し、敵対的な回避攻撃を可能にすることができます。以前のテストは機能しなくなりました。
代わりに、2つのモデル間の隠されたアクティベーションに一致する新しいテストを提案します。これは、敵対的な変換とモデルアーキテクチャの変化に堅牢です。
このテストは、ローカライズされたテストを実行することもできます。モデルの特定の非独立コンポーネントを識別することもできます。
これから正確なp値は得られなくなりましたが、経験的には、それが1つとして動作し、非独立モデルを確実に識別します。
特に、テストを使用して、別のモデルから派生した1つのモデルの特定の部分を識別できます(例えば、Llama 3.1-8Bが剪定されてLlama 3.2-3bまたはStripedhyena-7Bの間の共有層を初期化する方法)。

要約(オリジナル)

We consider the following problem: given the weights of two models, can we test whether they were trained independently — i.e., from independent random initializations? We consider two settings: constrained and unconstrained. In the constrained setting, we make assumptions about model architecture and training and propose a family of statistical tests that yield exact p-values with respect to the null hypothesis that the models are trained from independent random initializations. These p-values are valid regardless of the composition of either model’s training data; we compute them by simulating exchangeable copies of each model under our assumptions and comparing various similarity measures of weights and activations between the original two models versus these copies. We report the p-values from these tests on pairs of 21 open-weight models (210 total pairs) and correctly identify all pairs of non-independent models. Our tests remain effective even if one model was fine-tuned for many tokens. In the unconstrained setting, where we make no assumptions about training procedures, can change model architecture, and allow for adversarial evasion attacks, the previous tests no longer work. Instead, we propose a new test which matches hidden activations between two models, and which is robust to adversarial transformations and to changes in model architecture. The test can also do localized testing: identifying specific non-independent components of models. Though we no longer obtain exact p-values from this, empirically we find it behaves as one and reliably identifies non-independent models. Notably, we can use the test to identify specific parts of one model that are derived from another (e.g., how Llama 3.1-8B was pruned to initialize Llama 3.2-3B, or shared layers between Mistral-7B and StripedHyena-7B), and it is even robust to retraining individual layers of either model from scratch.

arxiv情報

著者 Sally Zhu,Ahmed Ahmed,Rohith Kuditipudi,Percy Liang
発行日 2025-03-12 15:58:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Independence Tests for Language Models はコメントを受け付けていません

TRACE: Real-Time Multimodal Common Ground Tracking in Situated Collaborative Dialogues

要約

実施された共同タスクでのライブ *共通の地面 *追跡のための新しいシステムであるTraceを提示します。
高速でリアルタイムのパフォーマンスに焦点を当て、トレースは参加者のスピーチ、アクション、ジェスチャー、視覚的注意を追跡し、これらのマルチモーダル入力を使用して、対話が進むにつれて提起されたタスク関連の提案のセットを決定し、グループの認識論的位置とタスクに対する信念を追跡します。
コラボレーションを仲介できるAIシステムへの関心の高まりの中で、Traceは、マルチパーティのマルチモーダル談話に関与できるエージェントにとって重要な前進を表しています。

要約(オリジナル)

We present TRACE, a novel system for live *common ground* tracking in situated collaborative tasks. With a focus on fast, real-time performance, TRACE tracks the speech, actions, gestures, and visual attention of participants, uses these multimodal inputs to determine the set of task-relevant propositions that have been raised as the dialogue progresses, and tracks the group’s epistemic position and beliefs toward them as the task unfolds. Amid increased interest in AI systems that can mediate collaborations, TRACE represents an important step forward for agents that can engage with multiparty, multimodal discourse.

arxiv情報

著者 Hannah VanderHoeven,Brady Bhalla,Ibrahim Khebour,Austin Youngren,Videep Venkatesha,Mariah Bradford,Jack Fitzgerald,Carlos Mabrey,Jingxuan Tu,Yifan Zhu,Kenneth Lai,Changsoo Jung,James Pustejovsky,Nikhil Krishnaswamy
発行日 2025-03-12 16:20:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TRACE: Real-Time Multimodal Common Ground Tracking in Situated Collaborative Dialogues はコメントを受け付けていません

Reinforcement Learning is all You Need

要約

人間のフィードバックなしでの強化学習による推論におけるDeepseek R1の成功に触発された私たちは、純粋な強化学習を備えたカウントダウンゲームを使用して3B言語モデルを訓練します。
私たちのモデルは、5つのベンチマークのうち4つのベースラインを上回り、トレーニングデータを超えて一般化の改善を示しています。
特に、応答の長さは推論の品質と相関せず、「ahaの瞬間」が出現しますが、必ずしも正しい答えを生み出すとは限りません。
これらの調査結果は、推論強化のためのRLのみのトレーニングの可能性を強調し、報酬構造を精製するための将来の作業を正確に橋渡しすることを示唆しています。

要約(オリジナル)

Inspired by the success of DeepSeek R1 in reasoning via reinforcement learning without human feedback, we train a 3B language model using the Countdown Game with pure reinforcement learning. Our model outperforms baselines on four of five benchmarks, demonstrating improved generalization beyond its training data. Notably, response length does not correlate with reasoning quality, and while ‘aha moments’ emerge, they do not always yield correct answers. These findings highlight the potential of RL-only training for reasoning enhancement and suggest future work on refining reward structures to bridge emergent insights with accuracy.

arxiv情報

著者 Yongsheng Lian
発行日 2025-03-12 16:22:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Reinforcement Learning is all You Need はコメントを受け付けていません