Two-stage Incomplete Utterance Rewriting on Editing Operation

要約

不完全な発話書き換え(IUR)に関する以前の研究は、対話の広範な現象を無視して、対話の広範な現象を無視して、対話の文脈のみに基づいて書き直された発話を生成することに主に焦点を当てています。
この問題に対処するために、第1段階で編集操作を生成し、生成された編集操作とダイアログコンテキストを利用して不完全な発話を書き直すIURのTEO(\ emph {編集操作に関する2段階のアプローチ})という新しいフレームワークを提案します。
さらに、第2段階でのトレーニングと推論の間の矛盾によって引き起こされるカスケードエラーと暴露バイアスを軽減するために、敵対的な摂動戦略が提案されています。
3つのIURデータセットの実験結果は、TEOがSOTAモデルを大幅に上回ることを示しています。

要約(オリジナル)

Previous work on Incomplete Utterance Rewriting (IUR) has primarily focused on generating rewritten utterances based solely on dialogue context, ignoring the widespread phenomenon of coreference and ellipsis in dialogues. To address this issue, we propose a novel framework called TEO (\emph{Two-stage approach on Editing Operation}) for IUR, in which the first stage generates editing operations and the second stage rewrites incomplete utterances utilizing the generated editing operations and the dialogue context. Furthermore, an adversarial perturbation strategy is proposed to mitigate cascading errors and exposure bias caused by the inconsistency between training and inference in the second stage. Experimental results on three IUR datasets show that our TEO outperforms the SOTA models significantly.

arxiv情報

著者 Zhiyu Cao,Peifeng Li,Qiaoming Zhu,Yaxin Fan
発行日 2025-03-20 11:56:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Two-stage Incomplete Utterance Rewriting on Editing Operation はコメントを受け付けていません

Tuning LLMs by RAG Principles: Towards LLM-native Memory

要約

メモリ、大規模な言語モデル(LLMS)のトレーニングを超えた追加情報は、パーソナルアシスタントなどのさまざまな現実世界のアプリケーションにとって重要です。
メモリを生成プロセスに組み込むための2つの主流のソリューションは、長いコンテキストLLMと検索された生成(RAG)です。
この論文では、最初にこれら2つのタイプのソリューションを3つの改装/新しいデータセットで体系的に比較し、(1)長いコンテキストソリューションは、より高価ですが、メモリ全体を考慮する必要がある全体像とより良い回答クエリをキャプチャするのが簡単であることを示します。
(2)クエリが特定の情報に関係する場合、特にキーワードを明示的に一致させることができる場合、RAGソリューションはより競争力があります。
したがって、RAGの原則に従って生成されたデータを使用して、相対的な小さな(例:7b)LLMを微調整するrag-tuned-llmを提案するため、両方のソリューションの利点を組み合わせることができます。
3つのデータセットでの広範な実験では、RAG調整llmが幅広いクエリタイプで長いコンテキストLLMとRAGメソッドに勝つ可能性があることが示されています。

要約(オリジナル)

Memory, additional information beyond the training of large language models (LLMs), is crucial to various real-world applications, such as personal assistant. The two mainstream solutions to incorporate memory into the generation process are long-context LLMs and retrieval-augmented generation (RAG). In this paper, we first systematically compare these two types of solutions on three renovated/new datasets and show that (1) long-context solutions, although more expensive, shall be easier to capture the big picture and better answer queries which require considering the memory as a whole; and (2) when the queries concern specific information, RAG solutions shall be more competitive especially when the keywords can be explicitly matched. Therefore, we propose a novel method RAG-Tuned-LLM which fine-tunes a relative small (e.g., 7B) LLM using the data generated following the RAG principles, so it can combine the advantages of both solutions. Extensive experiments on three datasets demonstrate that RAG-Tuned-LLM can beat long-context LLMs and RAG methods across a wide range of query types.

arxiv情報

著者 Jiale Wei,Shuchi Wu,Ruochen Liu,Xiang Ying,Jingbo Shang,Fangbo Tao
発行日 2025-03-20 12:04:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Tuning LLMs by RAG Principles: Towards LLM-native Memory はコメントを受け付けていません

Words in Motion: Extracting Interpretable Control Vectors for Motion Transformers

要約

変圧器ベースのモデルは、解釈が困難な隠された状態を生成します。
この作業では、モーション予測に焦点を当てて、隠された状態を分析し、推論で変更します。
線形調査を使用して、解釈可能な特徴が隠された状態に埋め込まれているかどうかを分析します。
私たちの実験は、高度な精度が高いことを明らかにし、機能的に重要な方向を持つ潜在的な空間の規則性を示しています。
これに基づいて、コントロールベクトルを適合させるために、対立する特徴を備えた隠された状態間の方向を使用します。
推論では、制御ベクトルを隠された状態に追加し、予測への影響を評価します。
驚くべきことに、このような変更により、予測の実現可能性が維持されます。
スパース自動エンコーダー(SAE)を使用して、コントロールベクトルをさらに洗練します。
これにより、コントロールベクトルをスケーリングすると、予測の線形変化が増えます。
当社のアプローチにより、機械的解釈と、無視できる計算オーバーヘッドを使用して、目に見えないデータセット特性に対するゼロショットの一般化が可能になります。

要約(オリジナル)

Transformer-based models generate hidden states that are difficult to interpret. In this work, we analyze hidden states and modify them at inference, with a focus on motion forecasting. We use linear probing to analyze whether interpretable features are embedded in hidden states. Our experiments reveal high probing accuracy, indicating latent space regularities with functionally important directions. Building on this, we use the directions between hidden states with opposing features to fit control vectors. At inference, we add our control vectors to hidden states and evaluate their impact on predictions. Remarkably, such modifications preserve the feasibility of predictions. We further refine our control vectors using sparse autoencoders (SAEs). This leads to more linear changes in predictions when scaling control vectors. Our approach enables mechanistic interpretation as well as zero-shot generalization to unseen dataset characteristics with negligible computational overhead.

arxiv情報

著者 Omer Sahin Tas,Royden Wagner
発行日 2025-03-20 12:06:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Words in Motion: Extracting Interpretable Control Vectors for Motion Transformers はコメントを受け付けていません

Redefining Toxicity: An Objective and Context-Aware Approach for Stress-Level-Based Detection

要約

毒性検出の基本的な問題は、「毒性」という用語が不明確であるという事実にあります。
このような不確実性により、研究者はモデルトレーニング中に主観的であいまいなデータに依存します。これは、「ごみのガベージアウト」パラダイムに続いて、非積極的で不正確な結果につながります。
この研究では、毒性検出のための新しい、客観的、およびコンテキスト対応のフレームワークを紹介し、毒性の重要な決定要因としてストレスレベルを活用します。
フレームワークの一部として、新しい定義、メトリック、トレーニングアプローチを提案し、収集したデータセットを使用して有効性を実証します。

要約(オリジナル)

The fundamental problem of toxicity detection lies in the fact that the term ‘toxicity’ is ill-defined. Such uncertainty causes researchers to rely on subjective and vague data during model training, which leads to non-robust and inaccurate results, following the ‘garbage in – garbage out’ paradigm. This study introduces a novel, objective, and context-aware framework for toxicity detection, leveraging stress levels as a key determinant of toxicity. We propose new definition, metric and training approach as a parts of our framework and demonstrate it’s effectiveness using a dataset we collected.

arxiv情報

著者 Sergey Berezin,Reza Farahbakhsh,Noel Crespi
発行日 2025-03-20 12:09:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Redefining Toxicity: An Objective and Context-Aware Approach for Stress-Level-Based Detection はコメントを受け付けていません

Cultural Alignment in Large Language Models Using Soft Prompt Tuning

要約

大規模な言語モデル(LLM)アラインメントは、従来、監視された微調整または強化学習ベースのアライメントフレームワークに依存しています。
これらの方法は通常、ラベル付きまたは好みのデータセットを必要とし、モデルの重みを更新してLLMをトレーニング目標または報酬モデルに合わせることを伴います。
一方、異文化研究などの社会科学では、因子分析は、調査データの観察されたパターンを説明する根本的な次元または潜在変数を明らかにするために広く使用されています。
調査データに由来するこれらの測定の非分化不可能な性質は、文化的側面との調整のために、以前のアライメント方法を実行不可能にします。
これを克服するために、ソフトプロンプトチューニングを組み合わせたパラメーター効率的な戦略を提案します。ソフトプロンプトチューニングは、モデルパラメーターをフリーズし、入力プロンプトの埋め込みを変更し、差別化可能な目標が達成できない場合のブラックボックス最適化方法である差動進化(DE)を使用します。
この戦略により、優先データやモデルパラメーターの更新を必要とせずにアライメントの一貫性が保証され、効率が大幅に向上し、過剰適合が緩和されます。
私たちの方法は、複数の領域にわたるLlama-3-8B-Instructの文化的側面の大幅な改善を示しており、ナイーブLLMとコンテキスト学習(ICL)ベースラインの両方を上回り、計算モデルを人間の文化的ニュアンスに効果的に橋渡しします。

要約(オリジナル)

Large Language Model (LLM) alignment conventionally relies on supervised fine-tuning or reinforcement learning based alignment frameworks. These methods typically require labeled or preference datasets and involve updating model weights to align the LLM with the training objective or reward model. Meanwhile, in social sciences such as cross-cultural studies, factor analysis is widely used to uncover underlying dimensions or latent variables that explain observed patterns in survey data. The non-differentiable nature of these measurements deriving from survey data renders the former alignment methods infeasible for alignment with cultural dimensions. To overcome this, we propose a parameter efficient strategy that combines soft prompt tuning, which freezes the model parameters while modifying the input prompt embeddings, with Differential Evolution (DE), a black-box optimization method for cases where a differentiable objective is unattainable. This strategy ensures alignment consistency without the need for preference data or model parameter updates, significantly enhancing efficiency and mitigating overfitting. Our method demonstrates significant improvements in LLama-3-8B-Instruct’s cultural dimensions across multiple regions, outperforming both the Naive LLM and the In-context Learning (ICL) baseline, and effectively bridges computational models with human cultural nuances.

arxiv情報

著者 Reem I. Masoud,Martin Ferianc,Philip Treleaven,Miguel Rodrigues
発行日 2025-03-20 12:34:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Cultural Alignment in Large Language Models Using Soft Prompt Tuning はコメントを受け付けていません

MKG-Rank: Enhancing Large Language Models with Knowledge Graph for Multilingual Medical Question Answering

要約

大規模な言語モデル(LLM)は、医療質問応答(QA)に顕著な進歩を示していますが、その有効性は、不均衡な多言語トレーニングデータと低リソース言語の医療資源の希少なため、主に英語に限定されています。
医療QAのこの重要な言語ギャップに対処するために、多言語の知識グラフベースの検索ランキング(MKG-Rank)を提案します。これは、英語中心のLLMが多言語医療QAを実行できるようにする知識グラフ強化フレームワークです。
単語レベルの翻訳メカニズムを通じて、当社のフレームワークは、包括的な英語中心の医療知識グラフを低コストでLLMの推論に効率的に統合し、言語間のセマンティックの歪みを緩和し、言語障壁全体で正確な医療QAを達成します。
効率を高めるために、キャッシュおよびマルチアングルランキング戦略を導入して、検索プロセスを最適化し、応答時間を大幅に削減し、関連する医学知識を優先します。
中国語、日本、韓国語、スワヒリ語にわたる多言語の医療QAベンチマークに関する広範な評価は、MKGランクが一貫してゼロショットLLMSを上回り、平均検索時間をわずか0.0009秒に維持しながら、精度を最大33.89%増加させることを示しています。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable progress in medical question answering (QA), yet their effectiveness remains predominantly limited to English due to imbalanced multilingual training data and scarce medical resources for low-resource languages. To address this critical language gap in medical QA, we propose Multilingual Knowledge Graph-based Retrieval Ranking (MKG-Rank), a knowledge graph-enhanced framework that enables English-centric LLMs to perform multilingual medical QA. Through a word-level translation mechanism, our framework efficiently integrates comprehensive English-centric medical knowledge graphs into LLM reasoning at a low cost, mitigating cross-lingual semantic distortion and achieving precise medical QA across language barriers. To enhance efficiency, we introduce caching and multi-angle ranking strategies to optimize the retrieval process, significantly reducing response times and prioritizing relevant medical knowledge. Extensive evaluations on multilingual medical QA benchmarks across Chinese, Japanese, Korean, and Swahili demonstrate that MKG-Rank consistently outperforms zero-shot LLMs, achieving maximum 33.89% increase in accuracy, while maintaining an average retrieval time of only 0.0009 seconds.

arxiv情報

著者 Feiyang Li,Yingjian Chen,Haoran Liu,Rui Yang,Han Yuan,Yuang Jiang,Tianxiao Li,Edison Marrese Taylor,Hossein Rouhizadeh,Yusuke Iwasawa,Douglas Teodoro,Yutaka Matsuo,Irene Li
発行日 2025-03-20 13:25:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MKG-Rank: Enhancing Large Language Models with Knowledge Graph for Multilingual Medical Question Answering はコメントを受け付けていません

Socratic Reasoning Improves Positive Text Rewriting

要約

ネガティブなものを肯定的な考えに再構成することは、メンタルヘルスと心理療法に対するいくつかの認知的アプローチの核心であり、大規模な言語モデルベースのソリューションによってよりアクセスしやすくなります。
このような再構成は通常、自明ではないものであり、否定的な思考の根本的な問題を明らかにし、それをより肯定的に変換するために複数の合理化ステップを必要とします。
ただし、この合理化プロセスは現在、1つのステップで思考を再構成するデータセットとモデルの両方で無視されています。
この作業では、\ textsc {socraticReframe}と呼ばれる新しいフレームワークを使用して、合成されたソクラテスの理論的根拠を使用して肯定的なテキストを書き直すためのオープンソースデータセットを増強することにより、このギャップに対処します。
SocraticReframeは、一連の質問回答ペアを使用して、思考書き換えプロセスを合理化します。
このようなソクラテスの根拠は、心理療法研究の基準によって導かれた自動および人間の評価の両方に従って、異なるオープンソースLLMの正のテキスト書き換えを大幅に改善することを示しています。
IRBが承認した注釈研究で、ドメインの専門家と心理学の学生からの専門家の判断との枠組みと合成合理化を検証します。
私たちの調査結果は、LLMの推論と確立された心理療法技術との相乗効果を利用して、否定的な思考を再構築するための支援ソリューションを構築する可能性を強調しています。

要約(オリジナル)

Reframing a negative into a positive thought is at the crux of several cognitive approaches to mental health and psychotherapy that could be made more accessible by large language model-based solutions. Such reframing is typically non-trivial and requires multiple rationalization steps to uncover the underlying issue of a negative thought and transform it to be more positive. However, this rationalization process is currently neglected by both datasets and models which reframe thoughts in one step. In this work, we address this gap by augmenting open-source datasets for positive text rewriting with synthetically-generated Socratic rationales using a novel framework called \textsc{SocraticReframe}. SocraticReframe uses a sequence of question-answer pairs to rationalize the thought rewriting process. We show that such Socratic rationales significantly improve positive text rewriting for different open-source LLMs according to both automatic and human evaluations guided by criteria from psychotherapy research. We validate our framework and the synthetic rationalizations with expert judgements from domain experts and psychology students in an IRB-approved annotation study. Our findings highlight the potential of utilizing the synergy between LLM reasoning and established psychotherapy techniques to build assistive solutions for reframing negative thoughts.

arxiv情報

著者 Anmol Goel,Nico Daheim,Christian Montag,Iryna Gurevych
発行日 2025-03-20 13:43:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Socratic Reasoning Improves Positive Text Rewriting はコメントを受け付けていません

Rationalization Models for Text-to-SQL

要約

テキストからSQLモデルの微調整を強化するために、考え方(COT)の理論的根拠を生成するためのフレームワークを紹介します。
これらの理論的根拠は、中間SQLステートメントと説明で構成され、最終的なSQLクエリの構築に向けた段階的なステップとして機能します。
このプロセスは、小さな一連の例を手動で注釈することから始まります。このセットは、教師モデルからの反復的で動的な少数の知識蒸留手順で大きな言語モデルを促すために使用されます。
その後、検証済みの分解されたクエリで合理化モデルがトレーニングされ、テキスト間データセットの広範な合成COTアノテーションが可能になります。
アプローチを評価するために、鳥のデータセットにこれらの理論的根拠を持つ場合となしで小さな言語モデルを微調整します。
結果は、特に中程度および非常に複雑なクエリの場合、ステップバイステップクエリの生成により、実行可能性が向上し、説明可能性が向上することを示しています。

要約(オリジナル)

We introduce a framework for generating Chain-of-Thought (CoT) rationales to enhance text-to-SQL model fine-tuning. These rationales consist of intermediate SQL statements and explanations, serving as incremental steps toward constructing the final SQL query. The process begins with manually annotating a small set of examples, which are then used to prompt a large language model in an iterative, dynamic few-shot knowledge distillation procedure from a teacher model. A rationalization model is subsequently trained on the validated decomposed queries, enabling extensive synthetic CoT annotations for text-to-SQL datasets. To evaluate the approach, we fine-tune small language models with and without these rationales on the BIRD dataset. Results indicate that step-by-step query generation improves execution accuracy, especially for moderately and highly complex queries, while also enhancing explainability.

arxiv情報

著者 Gaetano Rossiello,Nhan Pham,Michael Glass,Junkyu Lee,Dharmashankar Subramanian
発行日 2025-03-20 13:46:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB | Rationalization Models for Text-to-SQL はコメントを受け付けていません

Only a Little to the Left: A Theory-grounded Measure of Political Bias in Large Language Models

要約

GPT4やLlamaなどのプロンプトベースの言語モデルは、エージェントのシミュレーション、情報の検索、コンテンツ分析など、さまざまなユースケースに使用されています。
これらすべてのアプリケーションなど、これらのモデルの政治的偏見はパフォーマンスに影響を与える可能性があります。
いくつかの研究者は、政治コンパステスト(PCT)などの調査に基づいて評価スイートを使用して言語モデルの政治的偏見を研究しようとしました。
ただし、正確なプロンプト技術にはいくつかの変動があり、発見の発見につながり、ほとんどの研究はモデル応答を抽出するための制約された回答設定に依存しています。
さらに、政治コンパステストは科学的に有効な調査手段ではありません。
この作業では、政治学理論によって通知された政治的偏見を提供し、調査デザインの原則に基づいて、さまざまな入力プロンプトをテストしながら、迅速な感受性を考慮しています。
次に、11の異なるオープンモデルと商業モデルを促し、命令チューニングと非導入変動モデルを区別し、88,110の回答から政治的スタンスを自動的に分類します。
このデータセットを活用すると、さまざまな迅速な変動にわたって政治的バイアスプロファイルを計算し、PCTはGPT3.5などの特定のモデルでバイアスを誇張していますが、政治的バイアスの測定は不安定ですが、一般に指導チューニングモデルの方が左寄りです。

要約(オリジナル)

Prompt-based language models like GPT4 and LLaMa have been used for a wide variety of use cases such as simulating agents, searching for information, or for content analysis. For all of these applications and others, political biases in these models can affect their performance. Several researchers have attempted to study political bias in language models using evaluation suites based on surveys, such as the Political Compass Test (PCT), often finding a particular leaning favored by these models. However, there is some variation in the exact prompting techniques, leading to diverging findings and most research relies on constrained-answer settings to extract model responses. Moreover, the Political Compass Test is not a scientifically valid survey instrument. In this work, we contribute a political bias measured informed by political science theory, building on survey design principles to test a wide variety of input prompts, while taking into account prompt sensitivity. We then prompt 11 different open and commercial models, differentiating between instruction-tuned and non-instruction-tuned models, and automatically classify their political stances from 88,110 responses. Leveraging this dataset, we compute political bias profiles across different prompt variations and find that while PCT exaggerates bias in certain models like GPT3.5, measures of political bias are often unstable, but generally more left-leaning for instruction-tuned models.

arxiv情報

著者 Mats Faulborn,Indira Sen,Max Pellert,Andreas Spitz,David Garcia
発行日 2025-03-20 13:51:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Only a Little to the Left: A Theory-grounded Measure of Political Bias in Large Language Models はコメントを受け付けていません

Automatically Generating Chinese Homophone Words to Probe Machine Translation Estimation Systems

要約

ユーザー生成コンテンツ(UGC)の機械翻訳(MT)の評価には、ソースからの感情のニュアンスがターゲットテキストに保存されているかどうかを確認するなどの独自の課題が含まれます。
最近の研究では、参照翻訳に依存することなく、中国のUGCのMT品質を自動的に評価するために、感情関連のデータセット、フレームワーク、モデルが提案されています。
ただし、これらのモデルが感情的なニュアンスを維持するという課題に堅牢であるかどうかは、ほとんど説明されていません。
このギャップに対処するために、自己情報の概念を活用することにより、感情に関連する挑戦的な中国の同性愛者の言葉を生み出す情報理論に触発された新しい方法を紹介します。
私たちのアプローチは、感情の保存に翻訳エラーを引き起こすことが観察された同性愛者を生成し、感情的なUGCに取り組むときにMTシステムとその評価方法の脆弱性を明らかにします。
これらの生成された同性愛者の品質に対する人間の評価を使用して、方法の有効性を評価し、それを既存の同性愛者と比較して、私たちの方法が人間の判断とより高い相関を達成することを示しています。
生成された中国の同性愛者は、その手動翻訳とともに、摂動を生成し、マルチタスク学習、多言語モデルの微調整されたバリアント、大規模言語モデル(LLM)を使用してトレーニングされたモデルを含む既存の品質評価モデルの堅牢性を調査するために利用されます。
私たちの結果は、サイズが大きいLLMがそのような摂動に対してより高い安定性と堅牢性を示すことを示しています。
再現性とさらなる研究のためにデータとコードをリリースします。

要約(オリジナル)

Evaluating machine translation (MT) of user-generated content (UGC) involves unique challenges such as checking whether the nuance of emotions from the source are preserved in the target text. Recent studies have proposed emotion-related datasets, frameworks and models to automatically evaluate MT quality of Chinese UGC, without relying on reference translations. However, whether these models are robust to the challenge of preserving emotional nuances has been left largely unexplored. To address this gap, we introduce a novel method inspired by information theory which generates challenging Chinese homophone words related to emotions, by leveraging the concept of self-information. Our approach generates homophones that were observed to cause translation errors in emotion preservation, and exposes vulnerabilities in MT systems and their evaluation methods when tackling emotional UGC. We evaluate the efficacy of our method using human evaluation for the quality of these generated homophones, and compare it with an existing one, showing that our method achieves higher correlation with human judgments. The generated Chinese homophones, along with their manual translations, are utilized to generate perturbations and to probe the robustness of existing quality evaluation models, including models trained using multi-task learning, fine-tuned variants of multilingual language models, as well as large language models (LLMs). Our results indicate that LLMs with larger size exhibit higher stability and robustness to such perturbations. We release our data and code for reproducibility and further research.

arxiv情報

著者 Shenbin Qian,Constantin Orăsan,Diptesh Kanojia,Félix do Carmo
発行日 2025-03-20 13:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Automatically Generating Chinese Homophone Words to Probe Machine Translation Estimation Systems はコメントを受け付けていません