Abstract Meaning Representation-Based Logic-Driven Data Augmentation for Logical Reasoning

要約

大規模な言語モデルと論理的推論を組み合わせることで、堅牢で信頼できる方法で問題に対処する能力が向上します。
それにもかかわらず、論理的推論の複雑な性質は、Webから信頼できるデータを収集して包括的なトレーニングデータセットを構築し、その後ダウンストリームタスクのパフォーマンスに影響を与える際に課題をもたらします。
これに対処するために、新しいロジック駆動型のデータ増強アプローチAMR-LDAを紹介します。
AMR-LDAは、元のテキストを抽象的な意味表現(AMR)グラフに変換します。これは、文の論理構造をカプセル化する構造化されたセマンティック表現で、操作が実行されて論理的に変更されたAMRグラフを生成します。
その後、修正されたAMRグラフがテキストに戻され、拡張データが作成されます。
特に、私たちの方法論はアーキテクチャに依存しており、迅速な増強を通じてGPT-3.5やGPT-4などの生成的大規模な言語モデルと、論理駆動型のデータ増強を使用した対照学習を通じて識別的な大手言語モデルの両方を強化します。
実証的証拠は、論理的推論、テキストの誘惑、自然言語の推論を必要とする読解など、7つの下流タスクにわたってパフォーマンスの改善を伴う提案方法の有効性を強調しています。
さらに、私たちの方法は、https://eval.ai/web/challenges/challenge-page/503/leaderboard/1347のReclor Leaderboardにリードしています。
ソースコードとデータは、https://github.com/strong-ai-lab/logical-equivalence-driven-amr-data-augmentation-for-representation-rearningで公開されています。

要約(オリジナル)

Combining large language models with logical reasoning enhances their capacity to address problems in a robust and reliable manner. Nevertheless, the intricate nature of logical reasoning poses challenges when gathering reliable data from the web to build comprehensive training datasets, subsequently affecting performance on downstream tasks. To address this, we introduce a novel logic-driven data augmentation approach, AMR-LDA. AMR-LDA converts the original text into an Abstract Meaning Representation (AMR) graph, a structured semantic representation that encapsulates the logical structure of the sentence, upon which operations are performed to generate logically modified AMR graphs. The modified AMR graphs are subsequently converted back into text to create augmented data. Notably, our methodology is architecture-agnostic and enhances both generative large language models, such as GPT-3.5 and GPT-4, through prompt augmentation, and discriminative large language models through contrastive learning with logic-driven data augmentation. Empirical evidence underscores the efficacy of our proposed method with improvement in performance across seven downstream tasks, such as reading comprehension requiring logical reasoning, textual entailment, and natural language inference. Furthermore, our method leads on the ReClor leaderboard at https://eval.ai/web/challenges/challenge-page/503/leaderboard/1347. The source code and data are publicly available at https://github.com/Strong-AI-Lab/Logical-Equivalence-driven-AMR-Data-Augmentation-for-Representation-Learning.

arxiv情報

著者 Qiming Bao,Alex Yuxuan Peng,Zhenyun Deng,Wanjun Zhong,Gael Gendron,Timothy Pistotti,Neset Tan,Nathan Young,Yang Chen,Yonghua Zhu,Paul Denny,Michael Witbrock,Jiamou Liu
発行日 2025-04-17 11:14:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Abstract Meaning Representation-Based Logic-Driven Data Augmentation for Logical Reasoning はコメントを受け付けていません

Multi-Stakeholder Disaster Insights from Social Media Using Large Language Models

要約

近年、ソーシャルメディアは、災害や緊急事態の間にユーザーがフィードバックと問題を迅速に共有するための主要なチャネルとして浮上し、危機管理において重要な役割を果たしています。
ソーシャルメディアコンテンツの収集と分析において大きな進歩がありましたが、このデータの自動化、集約、カスタマイズを強化して、マスコミ、警察、EMS、消防士などの多様な利害関係者に合わせた実用的な洞察を提供する必要があります。
この取り組みは、救援活動、リソース分布、メディアコミュニケーションなどの活動の調整を改善するために不可欠です。
このペーパーでは、LLMSの機能を活用して災害対応と管理を強化する方法を提示します。
私たちのアプローチでは、分類手法と生成的AIを組み合わせて、生のユーザーフィードバックと利害関係者固有のレポートとのギャップを埋めます。
壊滅的なイベント中に共有されるソーシャルメディアの投稿は、ユーザーが報告した問題、サービスの中断、および遭遇した課題に焦点を当てて分析されます。
BERTなどの分析モデルを使用して、コンテンツタイプ、感情、感情、地理的、ジオロケーション、トピックの正確な多次元分類を使用して、フルスペクトルLLMを採用しています。
その後、ChatGPTなどの生成モデルを使用して、詳細な分類から派生した洞察を統合する明確な視聴者に合わせた人間が読みやすく有益なレポートを作成します。
ChatGPTのプロンプトを使用して投稿を直接分析する標準的なアプローチを比較します。これは、多次元分類、サブイベント選択、およびテーラードレポート生成を組み込んだ高度な方法と比較します。
私たちの方法論は、テキストコヒーレンススコアや潜在的な表現などの定量的指標の両方で優れたパフォーマンスを示し、自動化されたツールとフィールドの専門家による定性的評価を実証し、多様な災害対応の利害関係者に正確な洞察を提供します。

要約(オリジナル)

In recent years, social media has emerged as a primary channel for users to promptly share feedback and issues during disasters and emergencies, playing a key role in crisis management. While significant progress has been made in collecting and analyzing social media content, there remains a pressing need to enhance the automation, aggregation, and customization of this data to deliver actionable insights tailored to diverse stakeholders, including the press, police, EMS, and firefighters. This effort is essential for improving the coordination of activities such as relief efforts, resource distribution, and media communication. This paper presents a methodology that leverages the capabilities of LLMs to enhance disaster response and management. Our approach combines classification techniques with generative AI to bridge the gap between raw user feedback and stakeholder-specific reports. Social media posts shared during catastrophic events are analyzed with a focus on user-reported issues, service interruptions, and encountered challenges. We employ full-spectrum LLMs, using analytical models like BERT for precise, multi-dimensional classification of content type, sentiment, emotion, geolocation, and topic. Generative models such as ChatGPT are then used to produce human-readable, informative reports tailored to distinct audiences, synthesizing insights derived from detailed classifications. We compare standard approaches, which analyze posts directly using prompts in ChatGPT, to our advanced method, which incorporates multi-dimensional classification, sub-event selection, and tailored report generation. Our methodology demonstrates superior performance in both quantitative metrics, such as text coherence scores and latent representations, and qualitative assessments by automated tools and field experts, delivering precise insights for diverse disaster response stakeholders.

arxiv情報

著者 Loris Belcastro,Cristian Cosentino,Fabrizio Marozzo,Merve Gündüz-Cüre,Sule Öztürk-Birim
発行日 2025-04-17 11:29:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.ET, cs.SI | Multi-Stakeholder Disaster Insights from Social Media Using Large Language Models はコメントを受け付けていません

EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting

要約

人間のスピーチは、情報の単なる転送を超えています。
それは感情の深いやり取りと個人間のつながりです。
テキストからスピーチ(TTS)モデルは大きな進歩を遂げましたが、生成された音声で感情的な表現を制御する際の課題に依然として課題に直面しています。
この作業では、大規模な言語モデル(LLMS)を活用して細かいフリースタイルの自然言語感情コントロールを可能にする新しい感情に翻訳可能なTTSモデルであるEmovoiceを提案します。
また、表現力豊かな音声と自然言語の説明を含むきめの細かい感情ラベルを特徴とする高品質の40時間の英語感情データセットであるEmovoice-DBを紹介します。
Emovoiceは、合成トレーニングデータのみを使用してEnglish Emovoice-DBテストセット、および社内データを使用して中国のSECAPテストセットで最先端のパフォーマンスを実現します。
さらに、既存の感情評価メトリックの信頼性と、人間の知覚好みとの整合性を調査し、SOTAマルチモーダルLLMS GPT-4O-AudioおよびGeminiを使用して感情的な発言を評価します。
デモサンプルはhttps://anonymous.4open.science/r/emovoice-df55で入手できます。
データセット、コード、およびチェックポイントがリリースされます。

要約(オリジナル)

Human speech goes beyond the mere transfer of information; it is a profound exchange of emotions and a connection between individuals. While Text-to-Speech (TTS) models have made huge progress, they still face challenges in controlling the emotional expression in the generated speech. In this work, we propose EmoVoice, a novel emotion-controllable TTS model that exploits large language models (LLMs) to enable fine-grained freestyle natural language emotion control, and a phoneme boost variant design that makes the model output phoneme tokens and audio tokens in parallel to enhance content consistency, inspired by chain-of-thought (CoT) and modality-of-thought (CoM) techniques. Besides, we introduce EmoVoice-DB, a high-quality 40-hour English emotion dataset featuring expressive speech and fine-grained emotion labels with natural language descriptions. EmoVoice achieves state-of-the-art performance on the English EmoVoice-DB test set using only synthetic training data, and on the Chinese Secap test set using our in-house data. We further investigate the reliability of existing emotion evaluation metrics and their alignment with human perceptual preferences, and explore using SOTA multimodal LLMs GPT-4o-audio and Gemini to assess emotional speech. Demo samples are available at https://anonymous.4open.science/r/EmoVoice-DF55. Dataset, code, and checkpoints will be released.

arxiv情報

著者 Guanrou Yang,Chen Yang,Qian Chen,Ziyang Ma,Wenxi Chen,Wen Wang,Tianrui Wang,Yifan Yang,Zhikang Niu,Wenrui Liu,Fan Yu,Zhihao Du,Zhifu Gao,ShiLiang Zhang,Xie Chen
発行日 2025-04-17 11:50:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS | EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting はコメントを受け付けていません

Building Russian Benchmark for Evaluation of Information Retrieval Models

要約

ロシア語の情報検索(IR)モデルのゼロショット評価のために設計された包括的なベンチマークであるRusbeirを紹介します。
さまざまなドメインからの17のデータセットで構成され、適応、翻訳、新しく作成されたデータセットを統合し、語彙モデルとニューラルモデルの体系的な比較を可能にします。
私たちの研究は、形態学的に豊富な言語における語彙モデルに対する前処理の重要性を強調し、BM25をフルドキュメント検索の強力なベースラインとして確認しています。
ME5-LargeやBGE-M3などのニューラルモデルは、ほとんどのデータセットで優れたパフォーマンスを示しますが、入力サイズの制約により長期の検索で課題に直面しています。
Rusbeirは、ロシア語の情報検索の研究を促進する統一されたオープンソースのフレームワークを提供します。

要約(オリジナル)

We introduce RusBEIR, a comprehensive benchmark designed for zero-shot evaluation of information retrieval (IR) models in the Russian language. Comprising 17 datasets from various domains, it integrates adapted, translated, and newly created datasets, enabling systematic comparison of lexical and neural models. Our study highlights the importance of preprocessing for lexical models in morphologically rich languages and confirms BM25 as a strong baseline for full-document retrieval. Neural models, such as mE5-large and BGE-M3, demonstrate superior performance on most datasets, but face challenges with long-document retrieval due to input size constraints. RusBEIR offers a unified, open-source framework that promotes research in Russian-language information retrieval.

arxiv情報

著者 Grigory Kovalev,Mikhail Tikhomirov,Evgeny Kozhevnikov,Max Kornilov,Natalia Loukachevitch
発行日 2025-04-17 12:11:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Building Russian Benchmark for Evaluation of Information Retrieval Models はコメントを受け付けていません

ViClaim: A Multilingual Multilabel Dataset for Automatic Claim Detection in Videos

要約

コミュニケーションと誤った情報の媒体としてのビデオコンテンツの影響力の高まりは、多言語およびマルチトピック設定でのクレームを分析するための効果的なツールの緊急の必要性を強調しています。
誤った情報検出における既存の取り組みは、主に書かれたテキストに焦点を当てており、ビデオトランスクリプトの音声テキストの複雑さに対処する際に大きなギャップを残しています。
Vicraimは、3つの言語(英語、ドイツ語、スペイン語)と6つのトピックにわたって1,798の注釈付きビデオトランスクリプトのデータセットを紹介します。
転写産物の各文には、事実チェックに値する、事実なしのチェックに値する、または意見の3つのクレーム関連カテゴリがラベル付けされています。
非常に複雑な注釈プロセスを促進するためのカスタム注釈ツールを開発しました。
最先端の多言語モデルを使用した実験は、相互検証(最大0.896のマクロF1)の強力なパフォーマンスを示していますが、目に見えないトピック、特に明確なドメインの一般化の課題を明らかにします。
私たちの調査結果は、ビデオトランスクリプトにおけるクレーム検出の複雑さを強調しています。
Viclaimは、ビデオベースのコミュニケーションにおける誤った情報検出を進めるための堅牢な基盤を提供し、マルチモーダル分析の重要なギャップに対処します。

要約(オリジナル)

The growing influence of video content as a medium for communication and misinformation underscores the urgent need for effective tools to analyze claims in multilingual and multi-topic settings. Existing efforts in misinformation detection largely focus on written text, leaving a significant gap in addressing the complexity of spoken text in video transcripts. We introduce ViClaim, a dataset of 1,798 annotated video transcripts across three languages (English, German, Spanish) and six topics. Each sentence in the transcripts is labeled with three claim-related categories: fact-check-worthy, fact-non-check-worthy, or opinion. We developed a custom annotation tool to facilitate the highly complex annotation process. Experiments with state-of-the-art multilingual language models demonstrate strong performance in cross-validation (macro F1 up to 0.896) but reveal challenges in generalization to unseen topics, particularly for distinct domains. Our findings highlight the complexity of claim detection in video transcripts. ViClaim offers a robust foundation for advancing misinformation detection in video-based communication, addressing a critical gap in multimodal analysis.

arxiv情報

著者 Patrick Giedemann,Pius von Däniken,Jan Deriu,Alvaro Rodrigo,Anselmo Peñas,Mark Cieliebak
発行日 2025-04-17 12:14:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ViClaim: A Multilingual Multilabel Dataset for Automatic Claim Detection in Videos はコメントを受け付けていません

Are AI agents the new machine translation frontier? Challenges and opportunities of single- and multi-agent systems for multilingual digital communication

要約

人工知能(AI)の急速な進化により、AIエージェントはさまざまな産業にわたって破壊的なパラダイムとして導入されましたが、機械翻訳(MT)への適用は未脱カタリングのままです。
このペーパーでは、MTの単一エージェントシステムとマルチエージェントシステムの可能性について説明して分析し、多言語のデジタル通信を強化する方法を反映しています。
シングルエージェントシステムはより単純な翻訳タスクに適していますが、構造化された方法で協力する複数の専門的なAIエージェントを含むマルチエージェントシステムは、高精度、ドメイン固有の知識、および文脈認識を必要とする複雑なシナリオに有望なソリューションを提供する場合があります。
MTでのマルチエージェントワークフローの実現可能性を実証するために、合法的なMTでパイロット研究を実施しています。
この研究では、(i)翻訳、(ii)妥当性レビュー、(iii)流encyレビュー、および(iv)最終編​​集のための4つの専門的なAIエージェントを含むマルチエージェントシステムを採用しています。
私たちの調査結果は、マルチエージェントシステムが、従来のMTまたは単一エージェントシステムに優れた翻訳品質を備えたドメイン適応性とコンテキスト認識を大幅に改善する可能性があることを示唆しています。
このペーパーでは、MTのマルチエージェントアプリケーションの将来の研究、プロの翻訳ワークフローへの統合の段階を設定し、論文で分析されたシステムのデモを共有しています。

要約(オリジナル)

The rapid evolution of artificial intelligence (AI) has introduced AI agents as a disruptive paradigm across various industries, yet their application in machine translation (MT) remains underexplored. This paper describes and analyses the potential of single- and multi-agent systems for MT, reflecting on how they could enhance multilingual digital communication. While single-agent systems are well-suited for simpler translation tasks, multi-agent systems, which involve multiple specialized AI agents collaborating in a structured manner, may offer a promising solution for complex scenarios requiring high accuracy, domain-specific knowledge, and contextual awareness. To demonstrate the feasibility of multi-agent workflows in MT, we are conducting a pilot study in legal MT. The study employs a multi-agent system involving four specialized AI agents for (i) translation, (ii) adequacy review, (iii) fluency review, and (iv) final editing. Our findings suggest that multi-agent systems may have the potential to significantly improve domain-adaptability and contextual awareness, with superior translation quality to traditional MT or single-agent systems. This paper also sets the stage for future research into multi-agent applications in MT, integration into professional translation workflows, and shares a demo of the system analyzed in the paper.

arxiv情報

著者 Vicent Briva-Iglesias
発行日 2025-04-17 12:32:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.ET, cs.HC | Are AI agents the new machine translation frontier? Challenges and opportunities of single- and multi-agent systems for multilingual digital communication はコメントを受け付けていません

CameraBench: Benchmarking Visual Reasoning in MLLMs via Photography

要約

大規模な言語モデル(LLMS)およびマルチモーダル大型言語モデル(MLLM)には、人工知能が大幅に進歩しています。
ただし、視覚的な推論、視覚的入力とテキストの両方の入力を含む推論は、採用されていないままです。
Openai O1やGemini 2.0のフラッシュ思考などの推論モデルを含む最近の進歩は、この機能を開きました。
この進行中の作業では、写真はカメラパラメーターとの相互作用の基礎となる物理学(つまり、照明、ぼやけ程度など)が視覚的なスナップショットであるため、写真関連のタスクに特に焦点を当てています。
これらの数値カメラ設定を識別するために写真の視覚情報から成功裏に推論するには、MLLMが正確な視覚的理解のために基礎となる物理学をより深く理解する必要があります。
MLLMSは、視覚言語モデル(VLM)に以前に提案されていた方法論を拡張し、数値カメラ設定に関連する視覚的な違いを区別する能力について評価することを目指しています。
私たちの予備的な結果は、写真関連のタスクにおける視覚的推論の重要性を示しています。
さらに、これらの結果は、すべての評価タスクにわたって一貫して支配的な単一のMLLMがないことを示しており、より良い視覚的推論でMLLMを開発する際に継続的な課題と機会を示しています。

要約(オリジナル)

Large language models (LLMs) and multimodal large language models (MLLMs) have significantly advanced artificial intelligence. However, visual reasoning, reasoning involving both visual and textual inputs, remains underexplored. Recent advancements, including the reasoning models like OpenAI o1 and Gemini 2.0 Flash Thinking, which incorporate image inputs, have opened this capability. In this ongoing work, we focus specifically on photography-related tasks because a photo is a visual snapshot of the physical world where the underlying physics (i.e., illumination, blur extent, etc.) interplay with the camera parameters. Successfully reasoning from the visual information of a photo to identify these numerical camera settings requires the MLLMs to have a deeper understanding of the underlying physics for precise visual comprehension, representing a challenging and intelligent capability essential for practical applications like photography assistant agents. We aim to evaluate MLLMs on their ability to distinguish visual differences related to numerical camera settings, extending a methodology previously proposed for vision-language models (VLMs). Our preliminary results demonstrate the importance of visual reasoning in photography-related tasks. Moreover, these results show that no single MLLM consistently dominates across all evaluation tasks, demonstrating ongoing challenges and opportunities in developing MLLMs with better visual reasoning.

arxiv情報

著者 I-Sheng Fang,Jun-Cheng Chen
発行日 2025-04-17 12:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | CameraBench: Benchmarking Visual Reasoning in MLLMs via Photography はコメントを受け付けていません

Information Gain-Guided Causal Intervention for Autonomous Debiasing Large Language Models

要約

大幅な進歩にもかかわらず、最近の研究は、現在の大規模な言語モデル(LLMS)がデータセットバイアスをキャプチャし、推論中にそれらを利用し、LLMの一般化が不十分になる可能性があることを示しています。
ただし、データセットバイアスの多様性と、コンテキスト内学習に基づくバイアス抑制の性質が不十分であるため、以前の事前知識ベースの衰弱方法とコンテキスト内の学習ベースの自動脱毛方法の有効性は限られています。
これらの課題に対処するために、因果メカニズムと情報理論の組み合わせを調査し、情報ゲインガイド付き因果介入境界(IGCIDB)フレームワークを提案します。
このフレームワークは、最初に情報ゲインガイド付き因果介入方法を使用して、命令調整データセットの分布の自動的かつ自律的にバランスをとることです。
その後、Debiased DatasetでLLMSをトレーニングするために、標準的な監視された微調整プロセスを採用しています。
実験結果は、IGCIDBが効果的にDebias LLMを効果的にDebias LLMができることを示しています。

要約(オリジナル)

Despite significant progress, recent studies indicate that current large language models (LLMs) may still capture dataset biases and utilize them during inference, leading to the poor generalizability of LLMs. However, due to the diversity of dataset biases and the insufficient nature of bias suppression based on in-context learning, the effectiveness of previous prior knowledge-based debiasing methods and in-context learning based automatic debiasing methods is limited. To address these challenges, we explore the combination of causal mechanisms with information theory and propose an information gain-guided causal intervention debiasing (IGCIDB) framework. This framework first utilizes an information gain-guided causal intervention method to automatically and autonomously balance the distribution of instruction-tuning dataset. Subsequently, it employs a standard supervised fine-tuning process to train LLMs on the debiased dataset. Experimental results show that IGCIDB can effectively debias LLM to improve its generalizability across different tasks.

arxiv情報

著者 Zhouhao Sun,Xiao Ding,Li Du,Yunpeng Xu,Yixuan Ma,Yang Zhao,Bing Qin,Ting Liu
発行日 2025-04-17 12:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Information Gain-Guided Causal Intervention for Autonomous Debiasing Large Language Models はコメントを受け付けていません

Benchmarking Multi-National Value Alignment for Large Language Models

要約

大規模な言語モデル(LLM)は、あなたの国の価値と矛盾する立場を保持していますか?
時々彼らはそうします!
ただし、既存の研究は主に倫理的レビューに焦点を当てており、より広範な政策、法的、道徳的な考慮事項を含む国家的価値の多様性を捉えられません。
さらに、手動で設計されたアンケートを使用してスペクトルテストに依存する現在のベンチマークは、簡単にスケーラブルではありません。
これらの制限に対処するために、LLMの5つの主要国の価値との整合を評価するための包括的なベンチマークであるNavabを紹介します:中国、米国、英国、フランス、ドイツ。
NAVABは、国家価値抽出パイプラインを実装して、価値評価データセットを効率的に構築します。
具体的には、生データソースを処理するための命令タグ付けを備えたモデリング手順、価値関連トピックをフィルタリングするスクリーニングプロセス、および非紛争値をフィルタリングする競合削減メカニズムを備えた生成プロセスを提案します。
さらに、LLMSの値をターゲット国に合わせることにより、NAVABをアラインメント手法と組み合わせることができることを実証します。

要約(オリジナル)

Do Large Language Models (LLMs) hold positions that conflict with your country’s values? Occasionally they do! However, existing works primarily focus on ethical reviews, failing to capture the diversity of national values, which encompass broader policy, legal, and moral considerations. Furthermore, current benchmarks that rely on spectrum tests using manually designed questionnaires are not easily scalable. To address these limitations, we introduce NaVAB, a comprehensive benchmark to evaluate the alignment of LLMs with the values of five major nations: China, the United States, the United Kingdom, France, and Germany. NaVAB implements a national value extraction pipeline to efficiently construct value assessment datasets. Specifically, we propose a modeling procedure with instruction tagging to process raw data sources, a screening process to filter value-related topics and a generation process with a Conflict Reduction mechanism to filter non-conflicting values.We conduct extensive experiments on various LLMs across countries, and the results provide insights into assisting in the identification of misaligned scenarios. Moreover, we demonstrate that NaVAB can be combined with alignment techniques to effectively reduce value concerns by aligning LLMs’ values with the target country.

arxiv情報

著者 Chengyi Ju,Weijie Shi,Chengzhong Liu,Jiaming Ji,Jipeng Zhang,Ruiyuan Zhang,Jia Zhu,Jiajie Xu,Yaodong Yang,Sirui Han,Yike Guo
発行日 2025-04-17 13:01:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Benchmarking Multi-National Value Alignment for Large Language Models はコメントを受け付けていません

MAIN: Mutual Alignment Is Necessary for instruction tuning

要約

命令チューニングにより、大規模な言語モデル(LLMS)が驚くべきパフォーマンスを実現することができましたが、その成功は大規模で高品質の命令応答ペアの可用性に大きく依存します。
ただし、データ生成をスケーリングするための現在の方法は、多くの場合、重要な側面を見落としています。指示と応答のアラインメントです。
高品質の命令応答ペアは、各コンポーネントの個々の品質によってはなく、互いに整合する程度によって定義されると仮定します。
これに対処するために、相互の制約を通じて指示と応答の間の一貫性を保証する相互整列フレームワーク(メイン)を提案します。
実験は、このフレームワーク内で微調整されたLlamaやMistralなどのモデルが、複数のベンチマークで従来の方法よりも優れていることを示しています。
このアプローチは、LLMのスケーラブルで高品質の命令チューニングを可能にする際の命令応答アラインメントの重要な役割を強調しています。

要約(オリジナル)

Instruction tuning has enabled large language models (LLMs) to achieve remarkable performance, but its success heavily depends on the availability of large-scale, high-quality instruction-response pairs. However, current methods for scaling up data generation often overlook a crucial aspect: the alignment between instructions and responses. We hypothesize that high-quality instruction-response pairs are not defined by the individual quality of each component, but by the extent of their alignment with each other. To address this, we propose a Mutual Alignment Framework (MAIN) that ensures coherence between the instruction and response through mutual constraints. Experiments demonstrate that models such as LLaMA and Mistral, fine-tuned within this framework, outperform traditional methods across multiple benchmarks. This approach underscores the critical role of instruction-response alignment in enabling scalable and high-quality instruction tuning for LLMs.

arxiv情報

著者 Fanyi Yang,Jianfeng Liu,Xin Zhang,Haoyu Liu,Xixin Cao,Yuefeng Zhan,Hao Sun,Weiwei Deng,Feng Sun,Qi Zhang
発行日 2025-04-17 13:02:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MAIN: Mutual Alignment Is Necessary for instruction tuning はコメントを受け付けていません