MMCR: Benchmarking Cross-Source Reasoning in Scientific Papers

要約

機械による科学論文を完全に理解することは、高レベルの人工的な一般情報を反映しており、断片化された不均一な情報源を越えて推論する能力を必要とし、複雑で実質的に重要な課題を提示します。
ビジョン言語モデル(VLM)は、さまざまなタスク、特に単一の画像またはテキストページからの証拠ソースを使用した推論を含むさまざまなタスクで顕著な進歩を遂げていますが、推論にクロスソース情報を使用する能力は未解決の問題のままです。
この作業は、科学論文からのクロスソース情報を使用してVLMの能力を評価するために設計された高度なベンチマークであるMMCRを提示します。
ベンチマークは、7つの被験者と10のタスクタイプにわたって人間によって綿密に注釈が付けられた276の高品質の質問で構成されています。
18のVLMを使用した実験は、クロスソースの推論が既存のモデルにとって大きな課題であることを示しています。
特に、最高パフォーマンスモデルのGPT-4Oでさえ、全体的な精度は48.55%しか達成されず、マルチテーブル理解タスクの精度は20%しかありませんでしたが、2番目に良いモデルQWEN2.5-VL-72Bは39.86%の全体的な精度に達しました。
さらに、クロスソースの推論に対する考え方(COT)技術の影響を調査し、小さなモデルに有害な影響を観察しましたが、大きなモデルはパフォーマンスを大幅に向上させました。
これらの結果は、推論のためにクロスソース情報を効果的に利用できるVLMを開発する必要があることを強調しています。

要約(オリジナル)

Fully comprehending scientific papers by machines reflects a high level of Artificial General Intelligence, requiring the ability to reason across fragmented and heterogeneous sources of information, presenting a complex and practically significant challenge. While Vision-Language Models (VLMs) have made remarkable strides in various tasks, particularly those involving reasoning with evidence source from single image or text page, their ability to use cross-source information for reasoning remains an open problem. This work presents MMCR, a high-difficulty benchmark designed to evaluate VLMs’ capacity for reasoning with cross-source information from scientific papers. The benchmark comprises 276 high-quality questions, meticulously annotated by humans across 7 subjects and 10 task types. Experiments with 18 VLMs demonstrate that cross-source reasoning presents a substantial challenge for existing models. Notably, even the top-performing model, GPT-4o, achieved only 48.55% overall accuracy, with only 20% accuracy in multi-table comprehension tasks, while the second-best model, Qwen2.5-VL-72B, reached 39.86% overall accuracy. Furthermore, we investigated the impact of the Chain-of-Thought (CoT) technique on cross-source reasoning and observed a detrimental effect on small models, whereas larger models demonstrated substantially enhanced performance. These results highlight the pressing need to develop VLMs capable of effectively utilizing cross-source information for reasoning.

arxiv情報

著者 Yang Tian,Zheng Lu,Mingqi Gao,Zheng Liu,Bo Zhao
発行日 2025-03-21 05:02:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MMCR: Benchmarking Cross-Source Reasoning in Scientific Papers はコメントを受け付けていません

MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering

要約

テキストニュースとタイムシリーズの進化の関係を理解することは、応用データサイエンスにおける重要でありながら経験不足の課題です。
マルチモーダル学習は牽引力を獲得していますが、既存のマルチモーダルの時系列データセットは、物語の情報と時間的パターンの間の複雑な相互作用をキャプチャするために不可欠なクロスモーダル推論と複雑な質問応答の評価に不足しています。
このギャップを埋めるために、マルチモーダル時系列ベンチマーク(MTBench)を紹介します。これは、時系列と財務ドメイン全体のテキスト理解で大規模な言語モデル(LLM)を評価するために設計された大規模なベンチマークです。
Mtbenchは、対応する株価の動きと歴史的な温度記録に沿った天気レポートを含む金融ニュースを含む、ペアの時系列とテキストデータで構成されています。
孤立したモダリティに焦点を当てた既存のベンチマークとは異なり、Mtbenchは、構造化された数値傾向と構造化されていないテキストの物語を共同で推論するための包括的なテストベッドを提供します。
MTBenchの豊富さにより、テキストと時系列の両方のデータを深く理解する必要がある多様なタスクの策定により、時系列予測、セマンティックおよびテクニカルトレンド分析、ニュース主導の質問(QA)が含まれます。
これらのタスクは、時間的依存関係をキャプチャし、テキストコンテキストから重要な洞察を抽出し、クロスモーダル情報を統合するモデルの能力を対象としています。
Mtbenchで最先端のLLMを評価し、ニュースの物語と時間的パターンの複雑な関係をモデル化する際の有効性を分析します。
私たちの調査結果は、長期的な依存関係を捉え、財政的傾向や天気の傾向における因果関係の解釈、マルチモーダル情報の効果的な融合の難しさなど、現在のモデルの重要な課題を明らかにしています。

要約(オリジナル)

Understanding the relationship between textual news and time-series evolution is a critical yet under-explored challenge in applied data science. While multimodal learning has gained traction, existing multimodal time-series datasets fall short in evaluating cross-modal reasoning and complex question answering, which are essential for capturing complex interactions between narrative information and temporal patterns. To bridge this gap, we introduce Multimodal Time Series Benchmark (MTBench), a large-scale benchmark designed to evaluate large language models (LLMs) on time series and text understanding across financial and weather domains. MTbench comprises paired time series and textual data, including financial news with corresponding stock price movements and weather reports aligned with historical temperature records. Unlike existing benchmarks that focus on isolated modalities, MTbench provides a comprehensive testbed for models to jointly reason over structured numerical trends and unstructured textual narratives. The richness of MTbench enables formulation of diverse tasks that require a deep understanding of both text and time-series data, including time-series forecasting, semantic and technical trend analysis, and news-driven question answering (QA). These tasks target the model’s ability to capture temporal dependencies, extract key insights from textual context, and integrate cross-modal information. We evaluate state-of-the-art LLMs on MTbench, analyzing their effectiveness in modeling the complex relationships between news narratives and temporal patterns. Our findings reveal significant challenges in current models, including difficulties in capturing long-term dependencies, interpreting causality in financial and weather trends, and effectively fusing multimodal information.

arxiv情報

著者 Jialin Chen,Aosong Feng,Ziyu Zhao,Juan Garza,Gaukhar Nurbek,Cheng Qin,Ali Maatouk,Leandros Tassiulas,Yifeng Gao,Rex Ying
発行日 2025-03-21 05:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering はコメントを受け付けていません

Typed-RAG: Type-aware Multi-Aspect Decomposition for Non-Factoid Question Answering

要約

非ファクトルの質問回答(NFQA)は、そのオープンエンドの性質、多様な意図、および従来のファクトイドQAアプローチを検索すること(RAG)、不十分なものを含むマルチアスペクトの推論の必要性のために、重要な課題を提起します。
ファクトイドの質問とは異なり、際のない質問(NFQ)は決定的な答えに欠けており、さまざまな推論の次元にわたって複数のソースからの情報を合成する必要があります。
これらの制限に対処するために、NFQAのRAGパラダイム内のタイプに認識されたマルチアスペクト分解フレームワークであるTyped-Ragを紹介します。
タイプ付きRAGは、NFQを議論、経験、比較などの異なるタイプに分類し、アスペクトベースの分解を適用して検索戦略と生成戦略を改良します。
マルチアスペクトNFQを単一のアスペクトサブQuerieに分解し、結果を集約することにより、タイプ化されたラグは、より有益で文脈的に関連する応答を生成します。
タイプ付きラグを評価するために、多様なNFQタイプをカバーするベンチマークデータセットであるWiki-NFQAを導入します。
実験結果は、タイプされたラグがベースラインよりも優れていることを示しており、それにより、NFQAでの効果的な検索と生成のためのタイプアウェア分解の重要性を強調しています。
コードとデータセットはhttps://github.com/teamnlp/typed-ragで入手できます。

要約(オリジナル)

Non-factoid question-answering (NFQA) poses a significant challenge due to its open-ended nature, diverse intents, and the need for multi-aspect reasoning, which renders conventional factoid QA approaches, including retrieval-augmented generation (RAG), inadequate. Unlike factoid questions, non-factoid questions (NFQs) lack definitive answers and require synthesizing information from multiple sources across various reasoning dimensions. To address these limitations, we introduce Typed-RAG, a type-aware multi-aspect decomposition framework within the RAG paradigm for NFQA. Typed-RAG classifies NFQs into distinct types — such as debate, experience, and comparison — and applies aspect-based decomposition to refine retrieval and generation strategies. By decomposing multi-aspect NFQs into single-aspect sub-queries and aggregating the results, Typed-RAG generates more informative and contextually relevant responses. To evaluate Typed-RAG, we introduce Wiki-NFQA, a benchmark dataset covering diverse NFQ types. Experimental results demonstrate that Typed-RAG outperforms baselines, thereby highlighting the importance of type-aware decomposition for effective retrieval and generation in NFQA. Our code and dataset are available at https://github.com/TeamNLP/Typed-RAG.

arxiv情報

著者 DongGeon Lee,Ahjeong Park,Hyeri Lee,Hyeonseo Nam,Yunho Maeng
発行日 2025-03-21 05:50:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Typed-RAG: Type-aware Multi-Aspect Decomposition for Non-Factoid Question Answering はコメントを受け付けていません

Chameleon: Mixed-Modal Early-Fusion Foundation Models

要約

任意のシーケンスで画像とテキストを理解し、生成できる早期融合トークンベースの混合モーダルモデルのファミリーであるカメレオンを紹介します。
インセプションからの安定したトレーニングアプローチ、アラインメントレシピ、および早期融合のトークンベースの混合モーダル設定に合わせて調整されたアーキテクチャパラメーター化の概要を説明します。
モデルは、視覚的な質問への回答、画像キャプション、テキスト生成、画像生成、長期の混合モーダル生成など、包括的な範囲のタスクで評価されます。
Chameleonは、画像キャプションタスクの最先端のパフォーマンスを含む幅広い一般的な機能を実証し、Mixtral 8x7bやGemini-Proなどのモデルと競合しながら、テキストのみのタスクでLlama-2を上回り、すべてのモデルで非自明の画像生成を実行します。
また、Gemini ProやGPT-4Vを含むはるかに大きなモデルのパフォーマンスと一致またはそれを超えています。これは、プロンプトまたは出力に画像とテキストの両方の混合シーケンスが含まれている、新しい長型混合モーダル生成評価に関する人間の判断によるとです。
カメレオンは、完全なマルチモーダルドキュメントの統一されたモデリングで大きな前進を示しています。

要約(オリジナル)

We present Chameleon, a family of early-fusion token-based mixed-modal models capable of understanding and generating images and text in any arbitrary sequence. We outline a stable training approach from inception, an alignment recipe, and an architectural parameterization tailored for the early-fusion, token-based, mixed-modal setting. The models are evaluated on a comprehensive range of tasks, including visual question answering, image captioning, text generation, image generation, and long-form mixed modal generation. Chameleon demonstrates broad and general capabilities, including state-of-the-art performance in image captioning tasks, outperforms Llama-2 in text-only tasks while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and performs non-trivial image generation, all in a single model. It also matches or exceeds the performance of much larger models, including Gemini Pro and GPT-4V, according to human judgments on a new long-form mixed-modal generation evaluation, where either the prompt or outputs contain mixed sequences of both images and text. Chameleon marks a significant step forward in a unified modeling of full multimodal documents.

arxiv情報

著者 Chameleon Team
発行日 2025-03-21 05:54:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Chameleon: Mixed-Modal Early-Fusion Foundation Models はコメントを受け付けていません

Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction

要約

視覚的な質問応答(VQA)は、ドキュメント画像から特定の情報を抽出するための柔軟なアプローチとして浮上しています。
ただし、既存の作業は通常、各フィールドを単独で照会し、複数のアイテムで潜在的な依存関係を見落とします。
このペーパーでは、複数のフィールドを共同で抽出するメリットと個別に調査します。
複数の大型ビジョン言語モデルとデータセットの実験を通じて、特にフィールドが強力な数値またはコンテキスト依存関係を共有する場合、フィールドを共同で抽出することが精度を改善することが多いことを示します。
さらに、要求されたアイテムの数でパフォーマンスがどのようにスケーリングするかをさらに分析し、回帰ベースのメトリックを使用してインターフィールド関係を定量化します。
我々の結果は、マルチフィールドプロンプトが、類似の表面形式と関連する数値から生じる混乱を軽減し、ドキュメント情報抽出タスクで堅牢なVQAシステムを設計するための実用的な方法を提供できることを示唆しています。

要約(オリジナル)

Visual question answering (VQA) has emerged as a flexible approach for extracting specific pieces of information from document images. However, existing work typically queries each field in isolation, overlooking potential dependencies across multiple items. This paper investigates the merits of extracting multiple fields jointly versus separately. Through experiments on multiple large vision language models and datasets, we show that jointly extracting fields often improves accuracy, especially when the fields share strong numeric or contextual dependencies. We further analyze how performance scales with the number of requested items and use a regression based metric to quantify inter field relationships. Our results suggest that multi field prompts can mitigate confusion arising from similar surface forms and related numeric values, providing practical methods for designing robust VQA systems in document information extraction tasks.

arxiv情報

著者 Mengsay Loem,Taiju Hosaka
発行日 2025-03-21 05:54:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction はコメントを受け付けていません

Sparse Logit Sampling: Accelerating Knowledge Distillation in LLMs

要約

知識の蒸留は、教師の出力ロジットを事前に計算してキャッシュすることができる場合、大規模な言語モデルの知識を蒸留するための費用対効果の高い手法になる可能性があります。
ただし、これをトレーニング前に正常に適用することは、ほとんど説明されていません。
この作業では、直感的であるが、生徒に教師の確率分布の偏った推定値を提供し、最適ではないパフォーマンスとキャリブレーションをもたらすなど、キャッシングトップK確率などのまばらな知識蒸留のための素朴なアプローチが得られることを証明します。
重要なサンプリングベースの方法「ランダムサンプリング知識の蒸留」を提案します。これは、公平な推定を提供し、勾配を期待する勾配を保存し、大幅にスパースの高いロジットを保存する必要があります。
私たちの方法により、300mから3Bのモデルサイズの範囲にわたって、完全な蒸留と比較して競争力のあるパフォーマンスを維持しながら、エントロピークロスベースのトレーニングと比較して、わずかなオーバーヘッド(<10%)の学生モデルのより速いトレーニングが可能になります。

要約(オリジナル)

Knowledge distillation can be a cost-effective technique to distill knowledge in Large Language Models, if the teacher output logits can be pre-computed and cached. However, successfully applying this to pre-training remains largely unexplored. In this work, we prove that naive approaches for sparse knowledge distillation such as caching Top-K probabilities, while intuitive, provide biased estimates of teacher probability distribution to the student, resulting in suboptimal performance and calibration. We propose an importance-sampling-based method `Random Sampling Knowledge Distillation’, which provides unbiased estimates, preserves the gradient in expectation, and requires storing significantly sparser logits. Our method enables faster training of student models with marginal overhead (<10%) compared to cross-entropy based training, while maintaining competitive performance compared to full distillation, across a range of model sizes from 300M to 3B.

arxiv情報

著者 Anshumann,Mohd Abbas Zaidi,Akhil Kedia,Jinwoo Ahn,Taehwak Kwon,Kangwook Lee,Haejun Lee,Joohyung Lee
発行日 2025-03-21 05:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2.7 | Sparse Logit Sampling: Accelerating Knowledge Distillation in LLMs はコメントを受け付けていません

Federated Cross-Domain Click-Through Rate Prediction With Large Language Model Augmentation

要約

厳しいプライバシーの制約の下でクリックスルーレート(CTR)を正確に予測すると、特にユーザーアイテムの相互作用がまばらで断片化されている場合、大きな課題が発生します。
従来のクロスドメインCTR(CCTR)メソッドは、均一な特徴スペースを頻繁に想定し、集中データ共有に依存し、複雑なドメイン間の不一致とプライバシーを提供するプロトコルによって課される微妙なトレードオフを無視します。
ここでは、データ増強、表現解除、および適応的プライバシー保護を同期することによりこれらの制限に対処するために設計された連邦フレームワークである、大規模な言語モデルの増強(FEDCCTR-LM)を使用してフェデレーションクロスドメインCTR予測を提示します。
当社のアプローチは、3つのコアイノベーションを統合しています。
第一に、プライバシーを摂取する拡張ネットワーク(PrivaugNet)は、ユーザーとアイテムの表現を濃縮し、相互作用シーケンスを拡張し、データのスパース性と機能の不完全性を緩和し、大規模な言語モデルを採用しています。
第二に、対照学習(IDST-CL)モジュールを備えた独立したドメイン固有の変圧器は、ドメイン固有のユーザー設定と共有ユーザーの好みを解き放ち、ドメイン内表現アライメント(IDRA)およびクロスドメイン表現解離(CDRD)を採用して、学習した埋め込みを改良し、ドメインを介した知識移転を強化します。
最後に、適応的なローカル差動プライバシー(ADALDP)メカニズムは、ノイズインジェクションを動的に校正し、厳密なプライバシー保証と予測精度の間の最適なバランスを達成します。
4つの現実世界のデータセットでの経験的評価は、FedCCTR-LMが既存のベースラインを大幅に上回り、不均一なフェデレーション環境で堅牢でプライバシーを摂取し、一般化可能なクロスドメインCTR予測を提供することを示しています。

要約(オリジナル)

Accurately predicting click-through rates (CTR) under stringent privacy constraints poses profound challenges, particularly when user-item interactions are sparse and fragmented across domains. Conventional cross-domain CTR (CCTR) methods frequently assume homogeneous feature spaces and rely on centralized data sharing, neglecting complex inter-domain discrepancies and the subtle trade-offs imposed by privacy-preserving protocols. Here, we present Federated Cross-Domain CTR Prediction with Large Language Model Augmentation (FedCCTR-LM), a federated framework engineered to address these limitations by synchronizing data augmentation, representation disentanglement, and adaptive privacy protection. Our approach integrates three core innovations. First, the Privacy-Preserving Augmentation Network (PrivAugNet) employs large language models to enrich user and item representations and expand interaction sequences, mitigating data sparsity and feature incompleteness. Second, the Independent Domain-Specific Transformer with Contrastive Learning (IDST-CL) module disentangles domain-specific and shared user preferences, employing intra-domain representation alignment (IDRA) and crossdomain representation disentanglement (CDRD) to refine the learned embeddings and enhance knowledge transfer across domains. Finally, the Adaptive Local Differential Privacy (AdaLDP) mechanism dynamically calibrates noise injection to achieve an optimal balance between rigorous privacy guarantees and predictive accuracy. Empirical evaluations on four real-world datasets demonstrate that FedCCTR-LM substantially outperforms existing baselines, offering robust, privacy-preserving, and generalizable cross-domain CTR prediction in heterogeneous, federated environments.

arxiv情報

著者 Jiangcheng Qin,Xueyuan Zhang,Baisong Liu,Jiangbo Qian,Yangyang Wang
発行日 2025-03-21 06:22:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DC, cs.IR | Federated Cross-Domain Click-Through Rate Prediction With Large Language Model Augmentation はコメントを受け付けていません

Assessing the Reliability and Validity of GPT-4 in Annotating Emotion Appraisal Ratings

要約

評価理論は、感情が評価と呼ばれるイベントの主観的評価から生じることを示唆しています。
評価の分類法は非常に多様であり、通常、経験者アノテーターまたはリーダーアノテーターのパラダイムで注釈を付けられるリッカートスケールでの評価が与えられます。
このホワイトペーパーでは、GPT-4は、異なるプロンプト設定での21の特定の評価評価の読者アノテーターとして、ヒトのアノテーターと比較してパフォーマンスを評価および改善することを目指しています。
GPT-4は、人間のアノテーターよりも近くまたはわずかに優れている効果的なリーダーアノテーターであり、5つの完了の過半数の投票を使用することにより、その結果を大幅に改善できることがわかりました。
GPT-4はまた、単一のプロンプトを使用して評価評価と感情ラベルを効果的に予測しますが、命令の複雑さを追加するとパフォーマンスが低下します。
また、イベントの説明が長くなると、モデルとヒトのアノテーターの両方の評価に対してより正確な注釈が得られることがわかりました。
この作業は、心理学におけるLLMSの使用の増加と、評価の注釈におけるGPT-4パフォーマンスを改善するための戦略に貢献します。

要約(オリジナル)

Appraisal theories suggest that emotions arise from subjective evaluations of events, referred to as appraisals. The taxonomy of appraisals is quite diverse, and they are usually given ratings on a Likert scale to be annotated in an experiencer-annotator or reader-annotator paradigm. This paper studies GPT-4 as a reader-annotator of 21 specific appraisal ratings in different prompt settings, aiming to evaluate and improve its performance compared to human annotators. We found that GPT-4 is an effective reader-annotator that performs close to or even slightly better than human annotators, and its results can be significantly improved by using a majority voting of five completions. GPT-4 also effectively predicts appraisal ratings and emotion labels using a single prompt, but adding instruction complexity results in poorer performance. We also found that longer event descriptions lead to more accurate annotations for both model and human annotator ratings. This work contributes to the growing usage of LLMs in psychology and the strategies for improving GPT-4 performance in annotating appraisals.

arxiv情報

著者 Deniss Ruder,Andero Uusberg,Kairit Sirts
発行日 2025-03-21 06:35:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Assessing the Reliability and Validity of GPT-4 in Annotating Emotion Appraisal Ratings はコメントを受け付けていません

Catastrophic Failure of LLM Unlearning via Quantization

要約

大規模な言語モデル(LLM)は、テキストの生成において顕著な習熟度を示しており、広大なテキストコーパスに関する広範なトレーニングの恩恵を受けています。
ただし、LLMは、著作権およびプライベートコンテンツを含むトレーニングデータの多様で敏感な性質から不要な行動を取得する場合があります。
Machine Ulearningは、費用がかかり、時間のかかる再訓練を必要とせずに、このような問題のあるコンテンツの影響を除去するための実行可能なソリューションとして導入されました。
このプロセスは、できるだけ多くのモデルユーティリティを保存しながら、LLMSから特定の知識を消去することを目的としています。
現在の学習方法の有効性にもかかわらず、LLMの既存の学習方法が本当に忘れを達成するか、単に知識を隠しているかどうかにはほとんど注意が払われていません。
このホワイトペーパーでは、学習を受けたモデルに量子化を適用すると、「忘れられた」情報が回復する可能性があることが明らかになりました。
この現象を徹底的に評価するために、複数の精度レベルにわたってさまざまな量子化技術を使用して包括的な実験を実施します。
ユーティリティの制約を備えた解除方法の場合、未学習モデルは、意図された忘れられた知識の平均21 \%を完全に正確に保持し、4ビット量子化後83 \%に大幅に増加することがわかります。
…当社のコードは、\ href {https://github.com/zzwjames/failurellmunlearning} {https://github.com/zzwjames/failurellmunlearning}で入手できます。

要約(オリジナル)

Large language models (LLMs) have shown remarkable proficiency in generating text, benefiting from extensive training on vast textual corpora. However, LLMs may also acquire unwanted behaviors from the diverse and sensitive nature of their training data, which can include copyrighted and private content. Machine unlearning has been introduced as a viable solution to remove the influence of such problematic content without the need for costly and time-consuming retraining. This process aims to erase specific knowledge from LLMs while preserving as much model utility as possible. Despite the effectiveness of current unlearning methods, little attention has been given to whether existing unlearning methods for LLMs truly achieve forgetting or merely hide the knowledge, which current unlearning benchmarks fail to detect. This paper reveals that applying quantization to models that have undergone unlearning can restore the ‘forgotten’ information. To thoroughly evaluate this phenomenon, we conduct comprehensive experiments using various quantization techniques across multiple precision levels. We find that for unlearning methods with utility constraints, the unlearned model retains an average of 21\% of the intended forgotten knowledge in full precision, which significantly increases to 83\% after 4-bit quantization. … Our code is available at: \href{https://github.com/zzwjames/FailureLLMUnlearning}{https://github.com/zzwjames/FailureLLMUnlearning}.

arxiv情報

著者 Zhiwei Zhang,Fali Wang,Xiaomin Li,Zongyu Wu,Xianfeng Tang,Hui Liu,Qi He,Wenpeng Yin,Suhang Wang
発行日 2025-03-21 06:37:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Catastrophic Failure of LLM Unlearning via Quantization はコメントを受け付けていません

Advancing Tool-Augmented Large Language Models: Integrating Insights from Errors in Inference Trees

要約

多くの場合、APIの形でツールを活用してツールを活用して、複雑なタスクでの推論機能を改善します。
これにより、それらは現実の世界と対話するインテリジェントエージェントとして行動することができます。
Qinらによって最近導入されたOlllamaモデル。
[2023]は、$ 16000+$ $ REALLD APIを使用して、マルチステップ推論の深さ第一検索ベースの決定ツリー(DFSDT)メカニズムを利用し、従来のチェーン推論メカニズムと比較してツールを得たLLMのパフォーマンスを効果的に向上させます。
ただし、彼らのアプローチは、監視された微調整(SFT)の決定ツリー(推論ツリーとも呼ばれる)からの成功したパスのみを採用しており、失敗したパスからの潜在的な学習機会を逃しています。
これに触発されて、私たちは、この制限に対処するための選好学習に基づいて、推論軌道最適化フレームワークを提案します。
最初に、以前に無視された失敗した探索を決定ツリーで活用する木のような専門家の軌跡から段階的な優先データを構築するための新しい方法を紹介します。
その後のトレーニング段階では、まずLLMを成功したツール使用の専門家軌跡で微調整し、次にLLMのポリシーを更新するための優先データを直接優先最適化(DPO)を適用して、Toolprefer-lama(TP-LAMA)モデルになります。
このアプローチは、元の専門家データの利用を強化するだけでなく、モデルの学習空間を広げます。
私たちの実験は、推論ツリーのエラーから洞察を取得することにより、TP-llamaがほとんどすべてのテストシナリオでベースラインを大幅に上回り、目に見えないAPIを使用してより良い一般化機能を示すことを示しています。
同時に、TP-llamaはベースラインと比較して優れた推論効率も実証しており、複雑なツール使用推論タスクにより適しています。

要約(オリジナル)

Tool-augmented large language models (LLMs) leverage tools, often in the form of APIs, to improve their reasoning capabilities on complex tasks. This enables them to act as intelligent agents interacting with the real world. The recently introduced ToolLLaMA model by Qin et al. [2023] utilizes the depth-first search-based decision tree (DFSDT) mechanism for multi-step reasoning with $16000+$ real-world APIs, effectively enhancing the performance of tool-augmented LLMs compared to traditional chain reasoning mechanisms. However, their approach only employs successful paths from decision trees (also called inference trees) for supervised fine-tuning (SFT), missing out on the potential learning opportunities from failed paths. Inspired by this, we propose an inference trajectory optimization framework based on preference learning to address this limitation. We first introduce a novel method for constructing step-wise preference data from tree-like expert trajectories, which leverages the previously ignored failed explorations in the decision trees. In the subsequent training phase, we first fine-tune the LLM with successful tool-usage expert trajectories and then apply direct preference optimization (DPO) with the preference data to update the LLM’s policy, resulting in our ToolPrefer-LLaMA (TP-LLaMA) model. This approach not only enhances the utilization of original expert data but also broadens the learning space of the model. Our experiments demonstrate that by obtaining insights from errors in inference trees, TP-LLaMA significantly outperforms the baselines across almost all test scenarios by a large margin and exhibits better generalization capabilities with unseen APIs. At the same time, TP-LLaMA has also demonstrated superior reasoning efficiency compared to the baselines, making it more suitable for complex tool-usage reasoning tasks.

arxiv情報

著者 Sijia Chen,Yibo Wang,Yi-Feng Wu,Qing-Guo Chen,Zhao Xu,Weihua Luo,Kaifu Zhang,Lijun Zhang
発行日 2025-03-21 08:12:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Advancing Tool-Augmented Large Language Models: Integrating Insights from Errors in Inference Trees はコメントを受け付けていません