Two Heads Are Better Than One: Dual-Model Verbal Reflection at Inference-Time

要約

大規模な言語モデル(LLM)は、多くの場合、複雑な推論シナリオと格闘しています。
優先最適化方法は、トレーニングを通じて推論のパフォーマンスを向上させますが、ある理由が別の推論の結果よりも好まれる理由の透明性に欠けていることがよくあります。
口頭での反射技術は説明可能性を改善しますが、LLMSの批評と洗練能力に限られています。
これらの課題に対処するために、LLM生成された反射の精度と深さを高めるコントラストリフレクション合成パイプラインを導入します。
さらに、口頭での強化学習パラダイム内でデュアルモデルの推論フレームワークを提案し、推論時間の自己反省を、批評と改良を推論するための専門的な訓練されたモデルに分離します。
広範な実験は、私たちのフレームワークが、すべての評価メトリックにわたって従来の好みの最適化方法を上回ることを示しています。
また、私たちの調査結果は、「2つのヘッドが1つよりも優れている」ことを示しており、シングルモデルのアプローチと比較して、コラボレーションの推論批判モデルが優れた推論パフォーマンスと透明性を達成することを示しています。

要約(オリジナル)

Large Language Models (LLMs) often struggle with complex reasoning scenarios. While preference optimization methods enhance reasoning performance through training, they often lack transparency in why one reasoning outcome is preferred over another. Verbal reflection techniques improve explainability but are limited in LLMs’ critique and refinement capacity. To address these challenges, we introduce a contrastive reflection synthesis pipeline that enhances the accuracy and depth of LLM-generated reflections. We further propose a dual-model reasoning framework within a verbal reinforcement learning paradigm, decoupling inference-time self-reflection into specialized, trained models for reasoning critique and refinement. Extensive experiments show that our framework outperforms traditional preference optimization methods across all evaluation metrics. Our findings also show that ‘two heads are better than one’, demonstrating that a collaborative Reasoner-Critic model achieves superior reasoning performance and transparency, compared to single-model approaches.

arxiv情報

著者 Jiazheng Li,Yuxiang Zhou,Junru Lu,Gladys Tyen,Lin Gui,Cesare Aloisi,Yulan He
発行日 2025-02-26 15:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Two Heads Are Better Than One: Dual-Model Verbal Reflection at Inference-Time はコメントを受け付けていません

NeuroVoz: a Castillian Spanish corpus of parkinsonian speech

要約

音声によるパーキンソン病(PD)のスクリーニングは、異なる言語で公開されているデータセットが顕著に不足していることによって妨げられています。
この事実は、既存の研究の再現性とさらなる調査を制限しています。
このギャップに対処するために、この原稿は、58人の健康なコントロールとPDの54人の個人を含む112人のネイティブカスティリアンスペインのスピーカーで構成されるニューロボズコーパスを提示します。
コーパスは、多様な音声タスクを紹介しています。持続的な母音。
ジアドコキネティックテスト;
16リッスンと繰り返しの発言。
と自発的な独白。
また、データセットは、GRBASスケール(グレード/粗さ/息/アセニア/緊張)に従って専門家によって実行される音声品質の主観的評価、および蓄音品の質、強度、速度、共鳴、明瞭度、および韻律を徹底的に調べた注釈を補完します。
コーパスは、音声に対するPDの影響を調査するための実質的なリソースを提供します。
このデータセットはすでにいくつかの研究をサポートしており、PDのスクリーニングで89%のベンチマーク精度を達成しています。
これらの進歩にもかかわらず、パーキンソン病の音声パターンの言語に依存しないクロスポラ分析を実施するというより広い課題はまだ開いています。

要約(オリジナル)

The screening of Parkinson’s Disease (PD) through speech is hindered by a notable lack of publicly available datasets in different languages. This fact limits the reproducibility and further exploration of existing research. To address this gap, this manuscript presents the NeuroVoz corpus consisting of 112 native Castilian-Spanish speakers, including 58 healthy controls and 54 individuals with PD, all recorded in ON state. The corpus showcases a diverse array of speech tasks: sustained vowels; diadochokinetic tests; 16 Listen-and-Repeat utterances; and spontaneous monologues. The dataset is also complemented with subjective assessments of voice quality performed by an expert according to the GRBAS scale (Grade/Roughness/Breathiness/Asthenia/Strain), as well as annotations with a thorough examination of phonation quality, intensity, speed, resonance, intelligibility, and prosody. The corpus offers a substantial resource for the exploration of the impact of PD on speech. This data set has already supported several studies, achieving a benchmark accuracy of 89% for the screening of PD. Despite these advances, the broader challenge of conducting a language-agnostic, cross-corpora analysis of Parkinsonian speech patterns remains open.

arxiv情報

著者 Janaína Mendes-Laureano,Jorge A. Gómez-García,Alejandro Guerrero-López,Elisa Luque-Buzo,Julián D. Arias-Londoño,Francisco J. Grandas-Pérez,Juan I. Godino-Llorente
発行日 2025-02-26 15:42:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | NeuroVoz: a Castillian Spanish corpus of parkinsonian speech はコメントを受け付けていません

Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases

要約

正式な言語の前の言語モデルは、自然言語の獲得を改善できますが、正式な言語のどの機能が効果的な移転につながる誘導的なバイアスを与えるかは不明です。
言語学と複雑さの理論からの洞察に基づいて、正式な言語が自然言語で依存関係構造をキャプチャし、モデルアーキテクチャの計算制限内に残っている場合に効果的な転送が発生すると仮定します。
トランスに焦点を当てて、これらの両方のプロパティを備えた正式な言語は、言語モデルが他の言語と比較して自然言語で低い損失とより良い言語の一般化を達成できるようになることがわかります。
実際、フォーマルなと自然の言語に関する事前誘惑、またはトレーニングは、同じ量の自然言語よりも効率的に損失を減らします。
自然言語の約1.6bトークンで訓練された1Bパラメーター言語モデルの場合、前処理は同じ損失とより良い言語の一般化を達成し、33%のトークン予算を備えています。
また、正式な言語から自然言語へのクロスタスク転送の機械的証拠を示しています。正式な言語前削除中に獲得された注意ヘッドは、構文評価でのモデルのパフォーマンスに依然として重要です。

要約(オリジナル)

Pretraining language models on formal languages can improve their acquisition of natural language, but it is unclear which features of the formal language impart an inductive bias that leads to effective transfer. Drawing on insights from linguistics and complexity theory, we hypothesize that effective transfer occurs when the formal language both captures dependency structures in natural language and remains within the computational limitations of the model architecture. Focusing on transformers, we find that formal languages with both these properties enable language models to achieve lower loss on natural language and better linguistic generalization compared to other languages. In fact, pre-pretraining, or training on formal-then-natural language, reduces loss more efficiently than the same amount of natural language. For a 1B-parameter language model trained on roughly 1.6B tokens of natural language, pre-pretraining achieves the same loss and better linguistic generalization with a 33% smaller token budget. We also give mechanistic evidence of cross-task transfer from formal to natural language: attention heads acquired during formal language pretraining remain crucial for the model’s performance on syntactic evaluations.

arxiv情報

著者 Michael Y. Hu,Jackson Petty,Chuan Shi,William Merrill,Tal Linzen
発行日 2025-02-26 15:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases はコメントを受け付けていません

Application of Multimodal Large Language Models in Autonomous Driving

要約

技術の進歩のこの時代には、複雑な運転環境での安全性、効率、適応性の向上に焦点を当てた自律運転(AD)システムを強化するために、いくつかの最先端の技術が実装されています。
ただし、ADは依然としてパフォーマンスの制限などの問題に直面しています。
この問題に対処するために、マルチモーダルの大手言語モデルの実装に関する詳細な研究を実施しました。
仮想質問応答(VQA)データセットを作成して、モデルを微調整し、ADでのMLLMのパフォーマンスの低さで問題に対処しました。
次に、シーンの理解、予測、意思決定により、広告の意思決定プロセスを分類します。
一連の思考は、決定をより完全にするために使用されてきました。
私たちの実験と自律運転の詳細な分析は、MLLMがADにとってどれほど重要であるかを考えています。

要約(オリジナル)

In this era of technological advancements, several cutting-edge techniques are being implemented to enhance Autonomous Driving (AD) systems, focusing on improving safety, efficiency, and adaptability in complex driving environments. However, AD still faces some problems including performance limitations. To address this problem, we conducted an in-depth study on implementing the Multi-modal Large Language Model. We constructed a Virtual Question Answering (VQA) dataset to fine-tune the model and address problems with the poor performance of MLLM on AD. We then break down the AD decision-making process by scene understanding, prediction, and decision-making. Chain of Thought has been used to make the decision more perfectly. Our experiments and detailed analysis of Autonomous Driving give an idea of how important MLLM is for AD.

arxiv情報

著者 Md Robiul Islam
発行日 2025-02-26 16:01:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Application of Multimodal Large Language Models in Autonomous Driving はコメントを受け付けていません

Disentangled VAD Representations via a Variational Framework for Political Stance Detection

要約

スタンス検出タスクは、指定されたターゲットに関するスタンスを分類することを目的としています。
現在の方法は、スタンス検出のためのセンチメント情報を効果的に統合する上で課題に直面しています。
さらに、スタンス検出における非常に細かいセンチメントラベル付けの役割は、ほとんど見落とされています。
この研究では、ソーシャルメディアでの政治的言説から潜在的な感情的特徴、覚醒、支配(VAD)を解き放つために変分自動エンコーダー(VAE)を利用した新しいスタンス検出フレームワークを提示します。
このアプローチは、特にターゲット内およびターゲットのスタンス検出シナリオで、現在の方法、特にターゲット内およびクロスターゲットのスタンス検出シナリオの制限に対処しています。
この研究では、高度な感情的注釈ツールを使用して、P-stanceの7クラスのセンチメントラベルに注釈を付けます。
P-StanceやSemeval-2016を含むベンチマークデータセットの評価は、Polistance-VaeがBert、Bertweet、GPT-4oなどの最先端のパフォーマンスを上回るモデルを達成することを明らかにしています。
Polistance-Vaeは、スタンス検出のための堅牢で解釈可能なソリューションを提供し、微妙な感情表現を統合することの有効性を実証します。
このフレームワークは、自然言語処理タスクの進歩、特に詳細な感情的理解を必要とする方法の道を開きます。

要約(オリジナル)

The stance detection task aims to categorise the stance regarding specified targets. Current methods face challenges in effectively integrating sentiment information for stance detection. Moreover, the role of highly granular sentiment labelling in stance detection has been largely overlooked. This study presents a novel stance detection framework utilizing a variational autoencoder (VAE) to disentangle latent emotional features-value, arousal, and dominance (VAD)-from political discourse on social media. This approach addresses limitations in current methods, particularly in in-target and cross-target stance detection scenarios. This research uses an advanced emotional annotation tool to annotate seven-class sentiment labels for P-STANCE. Evaluations on benchmark datasets, including P-STANCE and SemEval-2016, reveal that PoliStance-VAE achieves state-of-the-art performance, surpassing models like BERT, BERTweet, and GPT-4o. PoliStance-VAE offers a robust and interpretable solution for stance detection, demonstrating the effectiveness of integrating nuanced emotional representations. This framework paves the way for advancements in natural language processing tasks, particularly those requiring detailed emotional understanding.

arxiv情報

著者 Beiyu Xu,Zhiwei Liu,Sophia Ananiadou
発行日 2025-02-26 16:31:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Disentangled VAD Representations via a Variational Framework for Political Stance Detection はコメントを受け付けていません

CritiQ: Mining Data Quality Criteria from Human Preferences

要約

言語モデルは、最適なパフォーマンスのために高品質のデータに大きく依存します。
既存のアプローチは、手動で設計されたヒューリスティック、既存のモデルの困惑、トレーニング分類器、または慎重な迅速なエンジニアリングに依存しています。
Critiqを紹介します。これは、$ \ SIM $ 30の人間解釈ペアのみでデータ品質のための人間の好みから基準を自動的に採掘し、効率的なデータ選択を実行する新しいデータ選択方法を紹介します。
主なコンポーネントであるCritiq Flowは、マネージャーエージェントを採用して品質基準を進化させ、ワーカーエージェントをペアワイズ判断します。
批評家の流れを高めるために、以前の研究から品質基準を抽出する知識ベースを構築します。
困惑および分類器ベースの方法と比較して、言葉による基準はより解釈可能であり、再利用可能な価値を持っています。
基準を導き出した後、critiqの得点者を訓練して、品質スコアを与え、効率的なデータ選択を実行します。
コード、数学、ロジックドメインにおける方法の有効性を実証し、人間が発表したテストセットで高い精度を達成します。
選択したデータの品質を検証するために、Llama 3.1モデルを継続的にトレーニングし、均一なサンプリングと比較してダウンストリームタスクのパフォーマンスの向上を観察します。
アブレーション研究は、知識ベースの利点と反射プロセスを検証します。
基準がどのように進化し、多数決の有効性を分析します。

要約(オリジナル)

Language model heavily depends on high-quality data for optimal performance. Existing approaches rely on manually designed heuristics, the perplexity of existing models, training classifiers, or careful prompt engineering, which require significant expert experience and human annotation effort while introduce biases. We introduce CritiQ, a novel data selection method that automatically mines criteria from human preferences for data quality with only $\sim$30 human-annotated pairs and performs efficient data selection. The main component, CritiQ Flow, employs a manager agent to evolve quality criteria and worker agents to make pairwise judgments. We build a knowledge base that extracts quality criteria from previous work to boost CritiQ Flow. Compared to perplexity- and classifier- based methods, verbal criteria are more interpretable and possess reusable value. After deriving the criteria, we train the CritiQ Scorer to give quality scores and perform efficient data selection. We demonstrate the effectiveness of our method in the code, math, and logic domains, achieving high accuracy on human-annotated test sets. To validate the quality of the selected data, we continually train Llama 3.1 models and observe improved performance on downstream tasks compared to uniform sampling. Ablation studies validate the benefits of the knowledge base and the reflection process. We analyze how criteria evolve and the effectiveness of majority voting.

arxiv情報

著者 Honglin Guo,Kai Lv,Qipeng Guo,Tianyi Liang,Zhiheng Xi,Demin Song,Qiuyinzhe Zhang,Yu Sun,Kai Chen,Xipeng Qiu,Tao Gui
発行日 2025-02-26 16:33:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CritiQ: Mining Data Quality Criteria from Human Preferences はコメントを受け付けていません

TAPO: Task-Referenced Adaptation for Prompt Optimization

要約

プロンプトエンジニアリングは、大規模な言語モデル(LLMS)のパフォーマンスを大幅に改善でき、自動化された迅速な最適化(APO)は、手動の迅速な設計の時間と骨の折れる性質のために大きな注意を払うことができます。
ただし、APOの既存の作業の多くはタスク固有の特性を見落としているため、ドメインの特異性がなく、タスク固有の最適化に適していないプロンプトが生じます。
このペーパーでは、3つのキーモジュールで構成されるマルチタスク対応プロンプト最適化フレームワークであるTAPOを紹介します。
まず、タスクに対応するメトリック選択モジュールが提案され、タスク固有のプロンプト生成機能を強化します。
第二に、複数の視点からプロンプトを共同で評価するためのマルチメトリック評価モジュールを提示します。
第三に、進化ベースの最適化フレームワークが自動迅速な改良のために導入され、さまざまなタスクにわたる適応性が向上します。
6つのデータセットでの広範な実験は、アプローチの有効性を示しており、コードは公開されています。

要約(オリジナル)

Prompt engineering can significantly improve the performance of large language models (LLMs), with automated prompt optimization (APO) gaining significant attention due to the time-consuming and laborious nature of manual prompt design. However, much of the existing work in APO overlooks task-specific characteristics, resulting in prompts that lack domain specificity and are not well-suited for task-specific optimization. In this paper, we introduce TAPO, a multitask-aware prompt optimization framework composed of three key modules. First, a task-aware metric selection module is proposed to enhance task-specific prompt generation capabilities. Second, we present a multi-metrics evaluation module to jointly evaluate prompts from multiple perspectives. Third, an evolution-based optimization framework is introduced for automatic prompt refinement, which improves adaptability across various tasks. Extensive experiments on six datasets demonstrate the effectiveness of our approach, and our code is publicly available.

arxiv情報

著者 Wenxin Luo,Weirui Wang,Xiaopeng Li,Weibo Zhou,Pengyue Jia,Xiangyu Zhao
発行日 2025-02-26 16:36:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TAPO: Task-Referenced Adaptation for Prompt Optimization はコメントを受け付けていません

Akan Cinematic Emotions (ACE): A Multimodal Multi-party Dataset for Emotion Recognition in Movie Dialogues

要約

このホワイトペーパーでは、Akan Conversation Emotion(ACE)データセットを紹介します。これは、アフリカの言語の最初のマルチモーダル感情対話データセットであり、感情認識研究における低リソース言語のリソースの重大な欠如に対処します。
アカン語用に開発されたエースには、音声、視覚、テキストのモダリティ全体に385の感情標識対話と6,162の発話が含まれており、単語レベルの韻律顕著な注釈が含まれています。
このデータセットに韻律ラベルが存在することは、それを最初の韻律的に注釈したアフリカの言語データセットにもなります。
最先端の感情認識方法を使用して、実験を通じてACEの品質と有用性を実証し、将来の研究のための確固たるベースラインを確立します。
ACEが、包括的、言語的、文化的に多様なNLPリソースに関するさらなる作業を促すことを願っています。

要約(オリジナル)

In this paper, we introduce the Akan Conversation Emotion (ACE) dataset, the first multimodal emotion dialogue dataset for an African language, addressing the significant lack of resources for low-resource languages in emotion recognition research. ACE, developed for the Akan language, contains 385 emotion-labeled dialogues and 6,162 utterances across audio, visual, and textual modalities, along with word-level prosodic prominence annotations. The presence of prosodic labels in this dataset also makes it the first prosodically annotated African language dataset. We demonstrate the quality and utility of ACE through experiments using state-of-the-art emotion recognition methods, establishing solid baselines for future research. We hope ACE inspires further work on inclusive, linguistically and culturally diverse NLP resources.

arxiv情報

著者 David Sasu,Zehui Wu,Ziwei Gong,Run Chen,Pengyuan Shi,Lin Ai,Julia Hirschberg,Natalie Schluter
発行日 2025-02-26 16:48:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Akan Cinematic Emotions (ACE): A Multimodal Multi-party Dataset for Emotion Recognition in Movie Dialogues はコメントを受け付けていません

Evaluating LLMs and Pre-trained Models for Text Summarization Across Diverse Datasets

要約

テキストの要約は、大量のテキストを簡潔で一貫した要約に凝縮することにより、自然言語処理において重要な役割を果たします。
デジタルコンテンツが急速に成長し続け、効果的な情報検索の需要が増加するにつれて、テキストの要約は近年研究の焦点になりました。
この研究では、5つの多様なデータセットCNN/DM、Gigaword、ニュースサマリー、XSUM、およびBBCニュースを越えて、BART、FLAN-T5、LLAMA-T5、LLAMA-3-8B、およびGEMMA-7Bの4つの主要な訓練とオープンソースの大規模な言語モデルの徹底的な評価を提供します。
この評価では、Rouge-1、Rouge-2、Rouge-L、Bertscore、Meteorなどの広く認識されている自動メトリックを採用して、コヒーレントおよび有益な要約を生成するモデルの機能を評価します。
結果は、さまざまなテキストタイプの処理におけるこれらのモデルの比較強度と制限を明らかにしています。

要約(オリジナル)

Text summarization plays a crucial role in natural language processing by condensing large volumes of text into concise and coherent summaries. As digital content continues to grow rapidly and the demand for effective information retrieval increases, text summarization has become a focal point of research in recent years. This study offers a thorough evaluation of four leading pre-trained and open-source large language models: BART, FLAN-T5, LLaMA-3-8B, and Gemma-7B, across five diverse datasets CNN/DM, Gigaword, News Summary, XSum, and BBC News. The evaluation employs widely recognized automatic metrics, including ROUGE-1, ROUGE-2, ROUGE-L, BERTScore, and METEOR, to assess the models’ capabilities in generating coherent and informative summaries. The results reveal the comparative strengths and limitations of these models in processing various text types.

arxiv情報

著者 Tohida Rehman,Soumabha Ghosh,Kuntal Das,Souvik Bhattacharjee,Debarshi Kumar Sanyal,Samiran Chattopadhyay
発行日 2025-02-26 17:32:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Evaluating LLMs and Pre-trained Models for Text Summarization Across Diverse Datasets はコメントを受け付けていません

Self-calibration for Language Model Quantization and Pruning

要約

量子化と剪定は、モデル圧縮の基本的なアプローチであり、言語モデルの効率的な推論を可能にします。
トレーニング後の設定では、最先端の量子化および剪定方法には、較正データの小さなセットであるキャリブレーションデータが必要です。
従来、これはランダムにサンプリングされたWebテキストであり、モデルトレーニングデータを反映することを目的としています。
ただし、これには2つの重要な問題が発生します。(1)非代表的なキャリブレーションの例は、モデルのパフォーマンスに害を及ぼす可能性があり、(2)組織がモデルトレーニングデータのリリースをますます回避します。
この論文では、解決策としてセルフキャリブレーションを提案します。
私たちのアプローチには、外部データは必要ありません。代わりに、モデル自体を活用して合成キャリブレーションデータを生成し、トレーニング前のデータ分布をより適切に近似します。
さまざまなモデル、圧縮方法、タスクにわたるいくつかのベースラインと自己キャリブレーションのパフォーマンスを広く比較します。
私たちのアプローチは、ダウンストリームタスクのパフォーマンスを最大化する上で一貫して競争力があり、実際のデータを使用しても頻繁にアウトパフォーマンスしています。

要約(オリジナル)

Quantization and pruning are fundamental approaches for model compression, enabling efficient inference for language models. In a post-training setting, state-of-the-art quantization and pruning methods require calibration data, a small set of unlabeled examples. Conventionally, this is randomly sampled web text, aiming to reflect the model training data. However, this poses two key problems: (1) unrepresentative calibration examples can harm model performance, and (2) organizations increasingly avoid releasing model training data. In this paper, we propose self-calibration as a solution. Our approach requires no external data, instead leveraging the model itself to generate synthetic calibration data, with a view to better approximating the pre-training data distribution. We extensively compare the performance of self-calibration with several baselines, across a variety of models, compression methods, and tasks. Our approach proves consistently competitive in maximizing downstream task performance, frequently outperforming even using real data.

arxiv情報

著者 Miles Williams,George Chrysostomou,Nikolaos Aletras
発行日 2025-02-26 17:40:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Self-calibration for Language Model Quantization and Pruning はコメントを受け付けていません