TableMaster: A Recipe to Advance Table Understanding with Language Models

要約

表は、構造化された関係データを表現するための基本的なフォーマットである。現在の言語モデル(LM)は多くのテキストベースのタスクに優れているが、構造化された性質など、表データの複雑な特徴のために、表理解の課題にはまだ直面している。本論文では、表理解を向上させるためにLMを強化することを目的とする。我々は4つの重要な課題を特定する:1)対象データの特定が困難、2)表の意味論における欠陥、3)テキスト推論における数値的不正確さ、4)記号推論における意味的柔軟性の欠如。これらの問題に対処するために、我々はこれらの障害を克服するための複数の解決策を統合したレシピと包括的なフレームワークであるTableMasterを提案する。TableMasterはまず、関連する表コンテンツを抽出し、意味コンテクストを充実させて言語化する。さらに、テキスト推論と記号推論の間を動的に調整する柔軟なアプローチである適応型推論を導入し、各クエリに合わせて推論プロセスを調整する。広範な分析と実験により、我々の発見とTableMasterの有効性が実証された。WikiTQデータセットにおいて、TableMasterはGPT-4o-miniを使用して78.13%の精度を達成し、既存のベースラインを超えた。

要約(オリジナル)

Tables serve as a fundamental format for representing structured relational data. While current language models (LMs) excel at many text-based tasks, they still face challenges in table understanding due to the complex characteristics of tabular data, such as their structured nature. In this paper, we aim to enhance LMs for improved table understanding. We identify four key challenges: 1) difficulty in locating target data, 2) deficiency in table semantics, 3) numerical inaccuracies in textual reasoning, and 4) semantic inflexibility in symbolic reasoning. To address these issues, we propose TableMaster, a recipe and comprehensive framework that integrates multiple solutions to overcome these obstacles. TableMaster first extracts relevant table content and verbalizes it with enriched semantic context. Additionally, we introduce adaptive reasoning, a flexible approach that dynamically adjusts between textual and symbolic reasoning, tailoring the reasoning process to each query. Extensive analyses and experiments demonstrate our findings and the effectiveness of TableMaster. On the WikiTQ dataset, TableMaster achieves an accuracy of 78.13% using GPT-4o-mini, surpassing existing baselines.

arxiv情報

著者 Lang Cao,Hanbing Liu
発行日 2025-05-02 12:16:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | TableMaster: A Recipe to Advance Table Understanding with Language Models はコメントを受け付けていません

PREMISE: Matching-based Prediction for Accurate Review Recommendation

要約

我々は、マルチモーダルレビュー有用性(MRHP)タスクのためのマルチモーダル分野でのマッチングに基づく学習のための新しいアーキテクチャであるPREMISE(PREdict with Matching ScorEs)を発表する。PREMISEは、マルチモーダル領域におけるマッチングに基づく学習を行う新しいアーキテクチャであり、マルチモーダル領域におけるマッチングに基づく学習を行う新しいアーキテクチャである。この新しいアーキテクチャは、文脈マッチング内容がそのタスクのターゲットと高い相関を持つようなマルチモーダルなタスクの性能を、最先端の融合ベースの手法に比べて大幅に向上させる。一般に公開されている2つのデータセットを用いた実験結果から、PREMISEはより少ない計算コストで有望な性能を達成することが示される。

要約(オリジナル)

We present PREMISE (PREdict with Matching ScorEs), a new architecture for the matching-based learning in the multimodal fields for the multimodal review helpfulness (MRHP) task. Distinct to previous fusion-based methods which obtains multimodal representations via cross-modal attention for downstream tasks, PREMISE computes the multi-scale and multi-field representations, filters duplicated semantics, and then obtained a set of matching scores as feature vectors for the downstream recommendation task. This new architecture significantly boosts the performance for such multimodal tasks whose context matching content are highly correlated to the targets of that task, compared to the state-of-the-art fusion-based methods. Experimental results on two publicly available datasets show that PREMISE achieves promising performance with less computational cost.

arxiv情報

著者 Wei Han,Hui Chen,Soujanya Poria
発行日 2025-05-02 13:23:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.IR, cs.MM | PREMISE: Matching-based Prediction for Accurate Review Recommendation はコメントを受け付けていません

A Factorized Probabilistic Model of the Semantics of Vague Temporal Adverbials Relative to Different Event Types

要約

recently, just, a long time ago などの曖昧な時間副詞は、過去の出来事と発話時間との間の時間的距離を記述するが、正確な期間は未指定のままである。本稿では、これらの副詞の意味論を確率分布として捉える因数分解モデルを紹介する。これらの分布は、特定のイベントに適用される副詞の文脈化された意味を得るために、イベント固有の分布と合成される。我々は、これらの曖昧な時間的副詞の、ある時間前に起こった出来事への適用可能性に関する母語話者の判断を捉えた既存のデータを用いて、モデルのパラメータを適合させた。イベントと時間的副詞の各ペアに対する単一のガウス分布に基づく非因子化モデルと我々のアプローチを比較した結果、どちらのモデルも同程度の予測力を持つが、オッカムの剃刀の観点からは、我々のモデルの方がより単純で拡張性に優れ、好ましいことがわかった。

要約(オリジナル)

Vague temporal adverbials, such as recently, just, and a long time ago, describe the temporal distance between a past event and the utterance time but leave the exact duration underspecified. In this paper, we introduce a factorized model that captures the semantics of these adverbials as probabilistic distributions. These distributions are composed with event-specific distributions to yield a contextualized meaning for an adverbial applied to a specific event. We fit the model’s parameters using existing data capturing judgments of native speakers regarding the applicability of these vague temporal adverbials to events that took place a given time ago. Comparing our approach to a non-factorized model based on a single Gaussian distribution for each pair of event and temporal adverbial, we find that while both models have similar predictive power, our model is preferable in terms of Occam’s razor, as it is simpler and has better extendability.

arxiv情報

著者 Svenja Kenneweg,Jörg Deigmöller,Julian Eggert,Philipp Cimiano
発行日 2025-05-02 14:39:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | A Factorized Probabilistic Model of the Semantics of Vague Temporal Adverbials Relative to Different Event Types はコメントを受け付けていません

A Transformer-based Neural Architecture Search Method

要約

本稿では、Transformerアーキテクチャに基づき、エンコーダとデコーダの組み合わせ数の異なるクロスマルチヘッドの注目計算方法を探索するニューラル・アーキテクチャ探索手法を提案する。より良い翻訳結果をもたらすニューラルネットワーク構造を探索するため、BLEUスコアに加え、アルゴリズムの補助評価指標としてperplexityを考慮し、多目的遺伝的アルゴリズムにより、母集団内の個々のニューラルネットワークを反復的に改良した。実験の結果、本アルゴリズムにより探索されたニューラルネットワーク構造は、すべてのベースラインモデルを凌駕し、補助評価指標の導入により、BLEUスコアのみを評価指標として考慮するよりも優れたモデルを発見できることが示された。

要約(オリジナル)

This paper presents a neural architecture search method based on Transformer architecture, searching cross multihead attention computation ways for different number of encoder and decoder combinations. In order to search for neural network structures with better translation results, we considered perplexity as an auxiliary evaluation metric for the algorithm in addition to BLEU scores and iteratively improved each individual neural network within the population by a multi-objective genetic algorithm. Experimental results show that the neural network structures searched by the algorithm outperform all the baseline models, and that the introduction of the auxiliary evaluation metric can find better models than considering only the BLEU score as an evaluation metric.

arxiv情報

著者 Shang Wang,Huanrong Tang,Jianquan Ouyang
発行日 2025-05-02 14:40:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.NE | A Transformer-based Neural Architecture Search Method はコメントを受け付けていません

TRAVELER: A Benchmark for Evaluating Temporal Reasoning across Vague, Implicit and Explicit References

要約

日常的なコミュニケーションにおいて過去や未来に言及することが多いため、時間的参照を理解し解決することは自然言語理解において不可欠である。既存のベンチマークでは、時間的参照を推論し解決するシステムの能力が評価されているが、特定の時間的参照に関する体系的な評価はまだ限られている。このギャップを埋めるために、我々はTRAVELERを紹介する。TRAVELERは、質問応答パラダイムに従った新しい合成ベンチマークデータセットであり、時間参照を含む質問とそれに対応する正解で構成されている。TRAVELERは、明示的、発話時間に対する暗黙的、曖昧な時間的参照を解決するモデルの能力を評価する。最新のLLMの時間的参照の種類による性能を調べるだけでなく、我々のベンチマークでは、イベントのセットの長さとの関連で性能を評価することもできる。このベンチマークの適用可能性を示すために、3,300の質問を含む質問応答タスクを使って、4つの最新のLLMを評価した。その結果、ベンチマークされたLLMは、少数のイベントと明示的な時間的参照を持つイベントセットに対する質問にはうまく答えることができるが、イベントセットの長さが大きくなるにつれて、また時間的参照が明示的でなくなるにつれて、性能は明らかに悪化することがわかった。特に、漠然とした質問カテゴリは、すべてのモデルで最も低いパフォーマンスを示している。 ベンチマークはhttps://gitlab.ub.uni-bielefeld.de/s.kenneweg/TRAVELER で公開されています。

要約(オリジナル)

Understanding and resolving temporal references is essential in Natural Language Understanding as we often refer to the past or future in daily communication. Although existing benchmarks address a system’s ability to reason about and resolve temporal references, systematic evaluation of specific temporal references remains limited. Towards closing this gap, we introduce TRAVELER, a novel synthetic benchmark dataset that follows a Question Answering paradigm and consists of questions involving temporal references with the corresponding correct answers. TRAVELER assesses models’ abilities to resolve explicit, implicit relative to speech time, and vague temporal references. Beyond investigating the performance of state-of-the-art LLMs depending on the type of temporal reference, our benchmark also allows evaluation of performance in relation to the length of the set of events. For the category of vague temporal references, ground-truth answers were established via human surveys on Prolific, following a procedure similar to the one from Kenneweg et al. To demonstrate the benchmark’s applicability, we evaluate four state-of-the-art LLMs using a question-answering task encompassing 3,300 questions. Our findings show that while the benchmarked LLMs can answer questions over event sets with a handful of events and explicit temporal references successfully, performance clearly deteriorates with larger event set length and when temporal references get less explicit. Notably, the vague question category exhibits the lowest performance across all models. The benchmark is publicly available at: https://gitlab.ub.uni-bielefeld.de/s.kenneweg/TRAVELER

arxiv情報

著者 Svenja Kenneweg,Jörg Deigmöller,Philipp Cimiano,Julian Eggert
発行日 2025-05-02 14:56:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | TRAVELER: A Benchmark for Evaluating Temporal Reasoning across Vague, Implicit and Explicit References はコメントを受け付けていません

MoDeGPT: Modular Decomposition for Large Language Model Compression

要約

大規模言語モデル(LLM)は、様々なタスクにおいて卓越した性能を発揮することで、人工知能の状況を塗り替えてきた。しかし、LLMは膨大な計算量を必要とするため、限られたリソースしかないデバイスへの導入は困難である。最近、低ランク行列技術を使った圧縮手法が有望視されていますが、これらはしばしば精度の低下を招いたり、パラメータや推論レイテンシに大きなオーバーヘッドをもたらします。本論文では、上記の欠点を解決しつつ、回復の微調整を必要としない新しい構造化圧縮フレームワークである゙textbf{Mo}dular゙textbf{De}composition(MoDeGPT)を紹介する。MoDeGPTは、Transformerブロックを行列対で構成されるモジュールに分割し、モジュールレベルの出力を再構成することで隠れ次元を削減する。MoDeGPTは、3つの確立された行列分解アルゴリズム(Nystr’om近似、CR分解、SVD)を利用する理論的枠組みに基づいて開発され、それらを再定義されたトランスフォーマー・モジュールに適用します。我々の包括的な実験によれば、MoDeGPTは後方伝搬なしで、勾配情報に依存する以前の構造化圧縮手法と同等かそれ以上であり、13Bのモデルを圧縮する際の計算コストを98%節約できる。また、勾配情報に依存しない構造化圧縮法は、これまでの構造化圧縮法と同等かそれ以上である。さらに、圧縮は1つのGPUで数時間以内に行うことができ、推論スループットを最大46%向上させます。

要約(オリジナル)

Large Language Models (LLMs) have reshaped the landscape of artificial intelligence by demonstrating exceptional performance across various tasks. However, substantial computational requirements make their deployment challenging on devices with limited resources. Recently, compression methods using low-rank matrix techniques have shown promise, yet these often lead to degraded accuracy or introduce significant overhead in parameters and inference latency. This paper introduces \textbf{Mo}dular \textbf{De}composition (MoDeGPT), a novel structured compression framework that does not need recovery fine-tuning while resolving the above drawbacks. MoDeGPT partitions the Transformer block into modules comprised of matrix pairs and reduces the hidden dimensions via reconstructing the module-level outputs. MoDeGPT is developed based on a theoretical framework that utilizes three well-established matrix decomposition algorithms — Nystr\’om approximation, CR decomposition, and SVD — and applies them to our redefined transformer modules. Our comprehensive experiments show MoDeGPT, without backward propagation, matches or surpasses previous structured compression methods that rely on gradient information, and saves 98% of compute costs on compressing a 13B model. On \textsc{Llama}-2/3 and OPT models, MoDeGPT maintains 90-95% zero-shot performance with 25-30% compression rates. Moreover, the compression can be done on a single GPU within a few hours and increases the inference throughput by up to 46%.

arxiv情報

著者 Chi-Heng Lin,Shangqian Gao,James Seale Smith,Abhishek Patel,Shikhar Tuli,Yilin Shen,Hongxia Jin,Yen-Chang Hsu
発行日 2025-05-02 15:34:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: (Primary), cs.CL, cs.LG, I.2.7, stat.ML | MoDeGPT: Modular Decomposition for Large Language Model Compression はコメントを受け付けていません

FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning

要約

大規模言語モデル(LLM)のファインチューニングはタスク適応に不可欠であるが、今日のサービングスタックは推論とファインチューニングを別々のGPUクラスタに分離しているため、リソースを浪費し、ハードウェアを十分に活用していない。FlexLLMは、トークン・レベルでの計算を融合することで、LLM推論とPEFTベースのファインチューニングを共有GPU上で共存させる初めてのシステムです。FlexLLMの静的コンパイル最適化–依存並列化とグラフ刈り込み–は、活性化メモリを大幅に縮小し、エンドツーエンドで最大80%のGPUメモリ節約につながる。実行時には、ハイブリッドトークンスケジューラと組み合わされた新しいトークンレベルの微調整メカニズムが、推論トークンとトレーニングトークンを各共役反復内で動的にインターリーブし、利用率を最大化しながら厳しいレイテンシSLOを満たします。LLaMA-3.1-8B、Qwen-2.5-14B、Qwen-2.5-32Bのエンドツーエンドベンチマークにおいて、FlexLLMは推論SLO要件を20req/sまで維持し、高推論負荷時には1.9-4.8倍、軽負荷時には2.5-6.8倍の微調整スループットを向上させ、ピーク時においてもピーク時の微調整進捗の76%以上を維持した。FlexLLMのソースコードはhttps://github.com/flexflow/FlexFlow/。

要約(オリジナル)

Finetuning large language models (LLMs) is essential for task adaptation, yet serving stacks today isolate inference and finetuning on separate GPU clusters — wasting resources and under-utilizing hardware. We introduce FlexLLM, the first system to co-serve LLM inference and PEFT-based finetuning on shared GPUs by fusing computation at the token level. The static compilation optimizations in FlexLLM — dependent parallelization and graph pruning significantly shrink activation memory, leading to end-to-end GPU memory savings by up to 80%. At runtime, a novel token-level finetuning mechanism paired with a hybrid token scheduler dynamically interleaves inference and training tokens within each co-serving iteration, meeting strict latency SLOs while maximizing utilization. In end-to-end benchmarks on LLaMA-3.1-8B, Qwen-2.5-14B, and Qwen-2.5-32B, FlexLLM sustains the inference SLO requirements up to 20 req/s, and improves finetuning throughput by 1.9-4.8x under heavy inference workloads and 2.5-6.8x under light loads, preserving over 76% of peak finetuning progress even at peak demand. The source code of FlexLLM is publicly available at https://github.com/flexflow/FlexFlow/.

arxiv情報

著者 Gabriele Oliaro,Xupeng Miao,Xinhao Cheng,Vineeth Kada,Ruohan Gao,Yingyi Huang,Remi Delacourt,April Yang,Yingcheng Wang,Mengdi Wu,Colin Unger,Zhihao Jia
発行日 2025-05-02 15:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.DC, cs.LG | FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning はコメントを受け付けていません

A Rate-Distortion Framework for Summarization

要約

本稿では、テキスト要約のための情報理論的フレームワークを紹介する。要約率-歪み関数を定義し、この関数が要約器の性能に基本的な下界を与えることを示す。この関数を計算するための、Blahut-Arimotoアルゴリズムに似た反復手順について述べる。実世界のテキストデータセットを扱うために、限られたデータで要約器のレートディストーション関数を計算できる実用的な方法も提案する。最後に、要約率の歪み関数と、実際に使用されている様々な要約器の性能を比較することで、我々の理論的結果を実証的に確認する。

要約(オリジナル)

This paper introduces an information-theoretic framework for text summarization. We define the summarizer rate-distortion function and show that it provides a fundamental lower bound on summarizer performance. We describe an iterative procedure, similar to Blahut-Arimoto algorithm, for computing this function. To handle real-world text datasets, we also propose a practical method that can calculate the summarizer rate-distortion function with limited data. Finally, we empirically confirm our theoretical results by comparing the summarizer rate-distortion function with the performances of different summarizers used in practice.

arxiv情報

著者 Enes Arda,Aylin Yener
発行日 2025-05-02 17:46:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.IT, cs.LG, math.IT | A Rate-Distortion Framework for Summarization はコメントを受け付けていません

A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage

要約

機密性の高いテキストデータのサニタイズは、通常、個人を特定できる情報(PII)を削除するか、合成データを生成することであり、これらの方法はプライバシーを適切に保護するという仮定の下に行われる。しかし、その有効性は、しばしば、明示的な識別子の漏洩を測定することによってのみ評価され、再識別につながる可能性のある微妙なテキストマーカーは無視される。我々は、データ公開時の個人のプライバシーリスクを定量化するために、再識別化攻撃を評価する新しいフレームワークを提案することによって、上記のようなプライバシーの幻想に挑戦する。我々のアプローチは、日常的な社会活動のような一見無害な補助情報が、サニタイズされたデータから年齢や薬物使用歴のようなセンシティブな属性を推測するために使用できることを示す。例えば、Azureの商用PII除去ツールは、MedQAデータセットの74%の情報を保護できないことを示す。差分プライバシーはこれらのリスクをある程度軽減するが、下流のタスクにおけるサニタイズされたテキストの有用性を著しく低下させる。我々の発見は、現在のサニタイズ技術が「偽のプライバシー感覚」を提供することを示しており、意味レベルの情報漏洩から保護する、より頑健な手法の必要性を強調している。

要約(オリジナル)

Sanitizing sensitive text data typically involves removing personally identifiable information (PII) or generating synthetic data under the assumption that these methods adequately protect privacy; however, their effectiveness is often only assessed by measuring the leakage of explicit identifiers but ignoring nuanced textual markers that can lead to re-identification. We challenge the above illusion of privacy by proposing a new framework that evaluates re-identification attacks to quantify individual privacy risks upon data release. Our approach shows that seemingly innocuous auxiliary information — such as routine social activities — can be used to infer sensitive attributes like age or substance use history from sanitized data. For instance, we demonstrate that Azure’s commercial PII removal tool fails to protect 74\% of information in the MedQA dataset. Although differential privacy mitigates these risks to some extent, it significantly reduces the utility of the sanitized text for downstream tasks. Our findings indicate that current sanitization techniques offer a \textit{false sense of privacy}, highlighting the need for more robust methods that protect against semantic-level information leakage.

arxiv情報

著者 Rui Xin,Niloofar Mireshghallah,Shuyue Stella Li,Michael Duan,Hyunwoo Kim,Yejin Choi,Yulia Tsvetkov,Sewoong Oh,Pang Wei Koh
発行日 2025-05-02 17:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CR, cs.LG | A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage はコメントを受け付けていません

Multi-Objective Reinforcement Learning for Water Management

要約

現実世界の多くの問題(資源管理、自律走行、創薬など)では、複数の相反する目的を最適化する必要がある。多目的強化学習(Multi-objective reinforcement learning: MORL)は、古典的な強化学習を拡張し、複数の目的を同時に扱うことで、様々なトレードオフを捉えたポリシーの集合をもたらす。しかしながら、MORLの分野には複雑で現実的な環境やベンチマークが不足している。我々は水資源(ナイル川流域)管理のケーススタディを紹介し、それをMORL環境としてモデル化する。そして既存のMORLアルゴリズムのベンチマークを行う。その結果、水管理に特化した手法が最先端のMORLアプローチを凌駕することが示され、MORLアルゴリズムが実世界のシナリオで直面するスケーラビリティの課題が浮き彫りになった。

要約(オリジナル)

Many real-world problems (e.g., resource management, autonomous driving, drug discovery) require optimizing multiple, conflicting objectives. Multi-objective reinforcement learning (MORL) extends classic reinforcement learning to handle multiple objectives simultaneously, yielding a set of policies that capture various trade-offs. However, the MORL field lacks complex, realistic environments and benchmarks. We introduce a water resource (Nile river basin) management case study and model it as a MORL environment. We then benchmark existing MORL algorithms on this task. Our results show that specialized water management methods outperform state-of-the-art MORL approaches, underscoring the scalability challenges MORL algorithms face in real-world scenarios.

arxiv情報

著者 Zuzanna Osika,Roxana Radelescu,Jazmin Zatarain Salazar,Frans Oliehoek,Pradeep K. Murukannaiah
発行日 2025-05-02 08:14:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Multi-Objective Reinforcement Learning for Water Management はコメントを受け付けていません