`Generalization is hallucination’ through the lens of tensor completions

要約

このショートポジションペーパーでは、テンソルの完成とアーティファクトを紹介し、言語モデルの特定のタイプの幻覚と一般化を理解するための有用な理論的枠組みであると主張します。

要約(オリジナル)

In this short position paper, we introduce tensor completions and artifacts and make the case that they are a useful theoretical framework for understanding certain types of hallucinations and generalizations in language models.

arxiv情報

著者 Liang Ze Wong
発行日 2025-02-24 16:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | `Generalization is hallucination’ through the lens of tensor completions はコメントを受け付けていません

Implicit Word Reordering with Knowledge Distillation for Cross-Lingual Dependency Parsing

要約

ソース言語とターゲット言語の違いの違いは、特に依存関係の解析タスクにおいて、横断的な転送の大きな障害です。
現在の作品は、主に注文に達したモデルまたはこの問題を軽減するための単語の並べ替えに基づいています。
ただし、このような方法は、文法情報を自然に語り方に含む文法情報を活用しないか、順列空間が文の長さとともに指数関数的に成長するため、計算上高価です。
さらに、不自然な語順を備えた並べ替えられたソース文は、モデルの学習に害を及ぼすノーシングの形である可能性があります。
この目的のために、知識蒸留(IWR-kd)を備えた暗黙の単語の並べ替えフレームワークを提案します。
このフレームワークは、深いネットワークが意味のあるデータ変換に対応する学習機能の線形化に優れていることに触発されています。
単語の並べ替え。
このアイデアを実現するために、単語の再注文教師モデルと依存関係解析学生モデルで構成される知識蒸留フレームワークを紹介します。
31の異なる言語にわたるユニバーサル依存のツリーバンクに関する提案された方法を検証し、実験分析とともに一連の競合他社を上回ることを示し、堅牢なパーサーのトレーニングにどのように機能するかを説明します。

要約(オリジナル)

Word order difference between source and target languages is a major obstacle to cross-lingual transfer, especially in the dependency parsing task. Current works are mostly based on order-agnostic models or word reordering to mitigate this problem. However, such methods either do not leverage grammatical information naturally contained in word order or are computationally expensive as the permutation space grows exponentially with the sentence length. Moreover, the reordered source sentence with an unnatural word order may be a form of noising that harms the model learning. To this end, we propose an Implicit Word Reordering framework with Knowledge Distillation (IWR-KD). This framework is inspired by that deep networks are good at learning feature linearization corresponding to meaningful data transformation, e.g. word reordering. To realize this idea, we introduce a knowledge distillation framework composed of a word-reordering teacher model and a dependency parsing student model. We verify our proposed method on Universal Dependency Treebanks across 31 different languages and show it outperforms a series of competitors, together with experimental analysis to illustrate how our method works towards training a robust parser.

arxiv情報

著者 Zhuoran Li,Chunming Hu,Junfan Chen,Zhijun Chen,Richong Zhang
発行日 2025-02-24 16:43:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Implicit Word Reordering with Knowledge Distillation for Cross-Lingual Dependency Parsing はコメントを受け付けていません

HIPPO: Enhancing the Table Understanding Capability of Large Language Models through Hybrid-Modal Preference Optimization

要約

表形式データには、豊富な構造的セマンティクスが含まれており、情報の整理と操作に重要な役割を果たします。
これらの構造セマンティクスをより適切にキャプチャするために、このペーパーでは、テキストと画像の両方を使用したテーブルを表すハイブリッドモーダル優先最適化(HIPPO)モデルを紹介し、MLLMを最適化して、これらの複数のモダリティからより包括的なテーブル情報を効果的に学習します。
具体的には、Hippoはハイブリッドモーダルのテーブル表現からのモデル応答をサンプルし、DPOトレーニング中に応答の多様性を高め、モダリティバイアスを緩和するためのモダリティ並置的なサンプリング戦略を設計します。
表の質問と表の質問と表の事実検証タスクの実験結果は、カバの有効性を示しており、さまざまなテーブル推論モデルよりも4%の改善を達成しています。
さらなる分析により、Hippoは単峰性のテーブル表現に基づいて推論能力を高めるだけでなく、異なるモーダル表現からの重要で異なるセマンティクスの抽出を促進することが明らかになりました。
すべてのデータとコードは、https://github.com/neuir/hippoで入手できます。

要約(オリジナル)

Tabular data contains rich structural semantics and plays a crucial role in organizing and manipulating information. To better capture these structural semantics, this paper introduces the HybrId-modal Preference oPtimizatiOn (HIPPO) model, which represents tables using both text and image, and optimizes MLLMs to effectively learn more comprehensive table information from these multiple modalities. Specifically, HIPPO samples model responses from hybrid-modal table representations and designs a modality-consistent sampling strategy to enhance response diversity and mitigate modality bias during DPO training. Experimental results on table question answering and table fact verification tasks demonstrate the effectiveness of HIPPO, achieving a 4% improvement over various table reasoning models. Further analysis reveals that HIPPO not only enhances reasoning abilities based on unimodal table representations but also facilitates the extraction of crucial and distinct semantics from different modal representations. All data and codes are available at https://github.com/NEUIR/HIPPO.

arxiv情報

著者 Zhenghao Liu,Haolan Wang,Xinze Li,Qiushi Xiong,Xiaocui Yang,Yu Gu,Yukun Yan,Qi Shi,Fangfang Li,Ge Yu,Maosong Sun
発行日 2025-02-24 16:50:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | HIPPO: Enhancing the Table Understanding Capability of Large Language Models through Hybrid-Modal Preference Optimization はコメントを受け付けていません

Turning Conversations into Workflows: A Framework to Extract and Evaluate Dialog Workflows for Service AI Agents

要約

自動化されたサービスエージェントは、顧客クエリに一貫した正確な応答を提供するために、よく構造化されたワークフローを必要とします。
ただし、これらのワークフローは文書化されていないことが多く、会話からの自動抽出は未開拓のままです。
この作業では、歴史的な相互作用からダイアログワークフローを抽出および評価するための新しいフレームワークを提示します。
抽出プロセスは、2つの重要な段階で構成されています。(1)重要な手続き要素に基づいて関連する会話を選択するための検索ステップ、および(2)質問をベースにしたチェーンを使用した構造化されたワークフロー生成プロセス(QA-Cot
)プロンプト。
抽出されたワークフローの品質を包括的に評価するために、顧客の問題を解決する上で有効性を測定する自動エージェントおよび顧客ボットシミュレーションフレームワークを導入します。
ABCDおよびSynthABCDデータセットでの広範な実験は、QA-COT技術がベースライン上の平均マクロ精度でワークフロー抽出を12.16 \%改善することを示しています。
さらに、私たちの評価方法は、人間の評価と密接に一致しており、将来の研究のための信頼できるスケーラブルなフレームワークを提供します。

要約(オリジナル)

Automated service agents require well-structured workflows to provide consistent and accurate responses to customer queries. However, these workflows are often undocumented, and their automatic extraction from conversations remains unexplored. In this work, we present a novel framework for extracting and evaluating dialog workflows from historical interactions. Our extraction process consists of two key stages: (1) a retrieval step to select relevant conversations based on key procedural elements, and (2) a structured workflow generation process using a question-answer-based chain-of-thought (QA-CoT) prompting. To comprehensively assess the quality of extracted workflows, we introduce an automated agent and customer bots simulation framework that measures their effectiveness in resolving customer issues. Extensive experiments on the ABCD and SynthABCD datasets demonstrate that our QA-CoT technique improves workflow extraction by 12.16\% in average macro accuracy over the baseline. Moreover, our evaluation method closely aligns with human assessments, providing a reliable and scalable framework for future research.

arxiv情報

著者 Prafulla Kumar Choubey,Xiangyu Peng,Shilpa Bhagavath,Caiming Xiong,Shiva Kumar Pentyala,Chien-Sheng Wu
発行日 2025-02-24 16:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Turning Conversations into Workflows: A Framework to Extract and Evaluate Dialog Workflows for Service AI Agents はコメントを受け付けていません

Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models

要約

大規模な言語モデル(LLM)は意思決定に広く使用されていますが、特にヘルスケアのような重要なタスクでは、その信頼性は十分に確立されていません。
したがって、LLMSがどのように推論し、決定を下すかを理解することは、安全な展開にとって重要です。
このペーパーでは、LLMSによって生成された応答の不確実性が、入力プロンプトで提供される情報にどのように関連しているかを調査します。
LLMSが事前トレーニング中に潜在的な概念を推測することを学ぶという洞察を活用して、LLMSが応答を生成する方法を説明し、プロンプトと応答の不確実性の関係を理解するのに役立つプロンプト応答の概念モデルを提案します。
認識論の不確実性と同様に、プロンプトの情報が増加するにつれて不確実性が低下することを示します。
実際のデータセットに関する詳細な実験結果は、提案されたモデルを検証します。

要約(オリジナル)

Large language models (LLMs) are widely used in decision-making, but their reliability, especially in critical tasks like healthcare, is not well-established. Therefore, understanding how LLMs reason and make decisions is crucial for their safe deployment. This paper investigates how the uncertainty of responses generated by LLMs relates to the information provided in the input prompt. Leveraging the insight that LLMs learn to infer latent concepts during pretraining, we propose a prompt-response concept model that explains how LLMs generate responses and helps understand the relationship between prompts and response uncertainty. We show that the uncertainty decreases as the prompt’s informativeness increases, similar to epistemic uncertainty. Our detailed experimental results on real-world datasets validate our proposed model.

arxiv情報

著者 Ze Yu Zhang,Arun Verma,Finale Doshi-Velez,Bryan Kian Hsiang Low
発行日 2025-02-24 17:06:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models はコメントを受け付けていません

Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study

要約

大規模な言語モデル(LLM)は、多言語機能を継続的に改善していることを示しており、小規模なオープンソースモデルでさえ、迅速なパフォーマンスの向上を実証しています。
この論文では、多言語の機械翻訳(MT)タスクを処理するために、100億未満のパラメーターを持つオープンLLMの能力を体系的に調査します。
6つの一般的なLLMSで包括的な評価を実施し、Gemma2-9Bのようなモデルが印象的な多言語翻訳機能を示していることがわかります。
次に、MTパフォーマンスをさらに強化し、28の言語でトップティア多言語翻訳パフォーマンスを達成する9BモデルであるGemmax2-28をさらに強化するために、継続的な前脱段階で並行した単一言語秒(PFMS)データミキシング戦略を導入します。
具体的には、Gemmax2-28は、TowerInstructやXalmaなどの最先端(SOTA)モデルを一貫して上回り、Google TranslateやGPT-4-Turboで競争力のあるパフォーマンスを達成します。

要約(オリジナル)

Large language models (LLMs) have shown continuously improving multilingual capabilities, and even small-scale open-source models have demonstrated rapid performance enhancement. In this paper, we systematically explore the abilities of open LLMs with less than ten billion parameters to handle multilingual machine translation (MT) tasks. We conduct comprehensive evaluations on six popular LLMs and find that models like Gemma2-9B exhibit impressive multilingual translation capabilities. We then introduce the Parallel-First Monolingual-Second (PFMS) data mixing strategy in the continual pretraining stage to further enhance the MT performance and present GemmaX2-28, a 9B model achieving top-tier multilingual translation performance across 28 languages. Specifically, GemmaX2-28 consistently outperforms the state-of-the-art (SOTA) models such as TowerInstruct and XALMA and achieves competitive performance with Google Translate and GPT-4-turbo.

arxiv情報

著者 Menglong Cui,Pengzhi Gao,Wei Liu,Jian Luan,Bin Wang
発行日 2025-02-24 17:24:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study はコメントを受け付けていません

On Relation-Specific Neurons in Large Language Models

要約

大規模な言語モデル(LLMS)では、特定のニューロンは、事前に学んだ明確な知識を保存できます。
知識は通常、関係とエンティティの組み合わせとして表示されますが、一部のニューロンが関係そのものに焦点を当てているかどうかは不明のままです – あらゆるエンティティとは無関係です。
このようなニューロンは、そのような関係に関連する入力テキストとガイド生成の関係を検出すると仮定します。
これを調査するために、統計ベースの方法を使用した選択された関係セットでLlama-2ファミリーを研究します。
私たちの実験は、関係固有のニューロンの存在を示しています。
関係$ r $に固有の候補ニューロンを選択的に非アクティブ化する効果を測定します。
関係情報をエンコードする能力に関して、関係固有のニューロンの次の3つの特性の証拠を提供します。
$ \ textbf {(i)ニューロン累積性。} $ $ r $のニューロンは累積効果を示し、それらの大部分を非アクティブ化すると、$ r $でより多くの事実が劣化します。
$ \ textbf {(ii)ニューロンの汎用性。} $ニューロンは、複数の密接に関連する関係と関連性の低い関係で共有できます。
いくつかの関係ニューロンは言語を越えて転送します。
$ \ textbf {(iii)ニューロン干渉
コードをhttps://github.com/cisnlp/relation-pecific-neuronsで公開します。

要約(オリジナル)

In large language models (LLMs), certain neurons can store distinct pieces of knowledge learned during pretraining. While knowledge typically appears as a combination of relations and entities, it remains unclear whether some neurons focus on a relation itself — independent of any entity. We hypothesize such neurons detect a relation in the input text and guide generation involving such a relation. To investigate this, we study the Llama-2 family on a chosen set of relations with a statistics-based method. Our experiments demonstrate the existence of relation-specific neurons. We measure the effect of selectively deactivating candidate neurons specific to relation $r$ on the LLM’s ability to handle (1) facts whose relation is $r$ and (2) facts whose relation is a different relation $r’ \neq r$. With respect to their capacity for encoding relation information, we give evidence for the following three properties of relation-specific neurons. $\textbf{(i) Neuron cumulativity.}$ The neurons for $r$ present a cumulative effect so that deactivating a larger portion of them results in the degradation of more facts in $r$. $\textbf{(ii) Neuron versatility.}$ Neurons can be shared across multiple closely related as well as less related relations. Some relation neurons transfer across languages. $\textbf{(iii) Neuron interference.}$ Deactivating neurons specific to one relation can improve LLM generation performance for facts of other relations. We will make our code publicly available at https://github.com/cisnlp/relation-specific-neurons.

arxiv情報

著者 Yihong Liu,Runsheng Chen,Lea Hirlimann,Ahmad Dawar Hakimi,Mingyang Wang,Amir Hossein Kargaran,Sascha Rothe,François Yvon,Hinrich Schütze
発行日 2025-02-24 17:33:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | On Relation-Specific Neurons in Large Language Models はコメントを受け付けていません

ML-SUPERB: Multilingual Speech Universal PERformance Benchmark

要約

音声処理Universal Performance Benchmark(SuperB)は、さまざまな音声処理タスクでの自己学習学習(SSL)モデルのパフォーマンスをベンチマークするリーダーボードです。
ただし、素晴らしい評価では英語のスピーチを主に考慮しています。
このペーパーでは、143の言語(高資源から絶滅危ed種に及ぶ)をカバーし、自動音声認識と言語識別の両方を考慮した多言語の素晴らしい(ML-Superb)を紹介します。
SuperBの概念に従って、ML-Superbは冷凍SSL機能を利用し、浅いダウンストリームモデルを学習することにより、多言語タスクの簡単なフレームワークを採用しています。
SuperB Benchmarkと同様に、Speech SSLモデルはFBANK機能と比較してパフォーマンスを大幅に改善できることがわかります。
さらに、多言語モデルは、単一言語のカウンターパートよりも常に優れたパフォーマンスではないことがわかります。
ML-Superbは、将来の多言語代表研究のための整理されたデータセットと再現可能なトレーニングスクリプトを備えた課題としてリリースします。

要約(オリジナル)

Speech processing Universal PERformance Benchmark (SUPERB) is a leaderboard to benchmark the performance of Self-Supervised Learning (SSL) models on various speech processing tasks. However, SUPERB largely considers English speech in its evaluation. This paper presents multilingual SUPERB (ML-SUPERB), covering 143 languages (ranging from high-resource to endangered), and considering both automatic speech recognition and language identification. Following the concept of SUPERB, ML-SUPERB utilizes frozen SSL features and employs a simple framework for multilingual tasks by learning a shallow downstream model. Similar to the SUPERB benchmark, we find speech SSL models can significantly improve performance compared to FBANK features. Furthermore, we find that multilingual models do not always perform better than their monolingual counterparts. We will release ML-SUPERB as a challenge with organized datasets and reproducible training scripts for future multilingual representation research.

arxiv情報

著者 Jiatong Shi,Dan Berrebbi,William Chen,Ho-Lam Chung,En-Pei Hu,Wei Ping Huang,Xuankai Chang,Shang-Wen Li,Abdelrahman Mohamed,Hung-yi Lee,Shinji Watanabe
発行日 2025-02-24 18:06:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | ML-SUPERB: Multilingual Speech Universal PERformance Benchmark はコメントを受け付けていません

What is a Good Question? Utility Estimation with LLM-based Simulations

要約

質問をすることは、より深い理解を促進する学習の基本的な側面です。
ただし、学習を効果的に改善する質問を特徴付けて作成することはとらえどころのないままです。
このギャップに対処するために、クエスト(シミュレートされたテストを使用した質問ユーティリティの推定)を提案します。
クエストは、学習成果の改善への直接的な影響に基づいて、質問の有用性の定量化を可能にする学習環境をシミュレートします。
さらに、高性能の質問を特定し、それらを使用して拒否サンプリングで質問生成モデルを微調整できます。
質問ユーティリティに基づいて拒否サンプリングで訓練されたモデルによって生成された質問は、教育目標の文献に基づいた専門のプロンプトと、質問の質の間接的な測定値で微調整されたモデルなどの専門的なプロンプトからの試験スコアよりも少なくとも20%高い試験スコアの結果を得ることがわかります。
顕著性と予想される情報が得られるように。

要約(オリジナル)

Asking questions is a fundamental aspect of learning that facilitates deeper understanding. However, characterizing and crafting questions that effectively improve learning remains elusive. To address this gap, we propose QUEST (Question Utility Estimation with Simulated Tests). QUEST simulates a learning environment that enables the quantification of a question’s utility based on its direct impact on improving learning outcomes. Furthermore, we can identify high-utility questions and use them to fine-tune question generation models with rejection sampling. We find that questions generated by models trained with rejection sampling based on question utility result in exam scores that are higher by at least 20% than those from specialized prompting grounded on educational objectives literature and models fine-tuned with indirect measures of question quality, such as saliency and expected information gain.

arxiv情報

著者 Dong-Ho Lee,Hyundong Cho,Jonathan May,Jay Pujara
発行日 2025-02-24 18:08:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | What is a Good Question? Utility Estimation with LLM-based Simulations はコメントを受け付けていません

Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond

要約

2023年の多言語スピーチユニバーサルパフォーマンスベンチマーク(ML-Superb)チャレンジは、高く評価されている素晴らしいフレームワークに拡大し、多言語の音声認識と言語識別における自己監視モデルを強調しています。
この課題は、ML-SUPERBを特定の多言語科目に適用することに焦点を当てた研究トラック、モデル提出のためのチャレンジトラック、および言語リソース研究者が最新の進捗状況のコンテキストで低リソースの言語データを貢献および評価できる新しい言語トラックで構成されています。
多言語認識で。
この課題は、12のモデルの提出と54の言語コーパスを獲得し、154の言語を含む包括的なベンチマークをもたらしました。
調査結果は、単にスケーリングモデルが多言語音声タスクの決定的なソリューションではなく、さまざまな音声/音声タイプが多言語音声処理において重要な課題をもたらすことを示しています。

要約(オリジナル)

The 2023 Multilingual Speech Universal Performance Benchmark (ML-SUPERB) Challenge expands upon the acclaimed SUPERB framework, emphasizing self-supervised models in multilingual speech recognition and language identification. The challenge comprises a research track focused on applying ML-SUPERB to specific multilingual subjects, a Challenge Track for model submissions, and a New Language Track where language resource researchers can contribute and evaluate their low-resource language data in the context of the latest progress in multilingual speech recognition. The challenge garnered 12 model submissions and 54 language corpora, resulting in a comprehensive benchmark encompassing 154 languages. The findings indicate that merely scaling models is not the definitive solution for multilingual speech tasks, and a variety of speech/voice types present significant challenges in multilingual speech processing.

arxiv情報

著者 Jiatong Shi,William Chen,Dan Berrebbi,Hsiu-Hsuan Wang,Wei-Ping Huang,En-Pei Hu,Ho-Lam Chuang,Xuankai Chang,Yuxun Tang,Shang-Wen Li,Abdelrahman Mohamed,Hung-yi Lee,Shinji Watanabe
発行日 2025-02-24 18:13:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond はコメントを受け付けていません