UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models

要約

大規模な言語モデル(LLM)は、特に数学で複雑な推論タスクを解決する際に顕著な能力を実証しています。
ただし、物理学の推論の領域は、注目が大幅に少ないユニークな課題を提示します。
既存のベンチマークは、学部レベルの物理学の幅と深さに関するLLMSの能力を評価することに不足していることが多く、包括的な評価の必要性を強調しています。
このギャップを埋めるために、学部レベルの物理学(UGPHYSICS)の推論をLLMSで評価するために特別に設計された大規模で包括的なベンチマークであるUgphysicsを紹介します。
Ugphysicsには、英語と中国語の両方で5,520の学部レベルの物理学の問題が含まれ、7つの異なる回答タイプと4つの異なる物理的推論スキルを備えた13人の被験者をカバーし、すべて厳密にデータ漏れについてスクリーニングされています。
さらに、物理学の問題の回答の正確性を評価するために特別に調整されたモデルアシスタントルールベースの判断(MARJ)パイプラインを開発し、正確な評価を確保します。
31の主要なLLMSの評価は、最も高い全体的な精度である49.8%(Openai-O1-Miniによって達成)が、数学能力を超えて、物理学推論スキルが強いモデルの必要性を強調していることを示しています。
Ugphysicsは、MARJとともに、物理学の推論のためにAIの将来の進歩を促進することを願っています。
コードとデータは、https://github.com/yanglabhkust/ugphysicsで入手できます。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities in solving complex reasoning tasks, particularly in mathematics. However, the domain of physics reasoning presents unique challenges that have received significantly less attention. Existing benchmarks often fall short in evaluating LLMs’ abilities on the breadth and depth of undergraduate-level physics, underscoring the need for a comprehensive evaluation. To fill this gap, we introduce UGPhysics, a large-scale and comprehensive benchmark specifically designed to evaluate UnderGraduate-level Physics (UGPhysics) reasoning with LLMs. UGPhysics includes 5,520 undergraduate-level physics problems in both English and Chinese, covering 13 subjects with seven different answer types and four distinct physics reasoning skills, all rigorously screened for data leakage. Additionally, we develop a Model-Assistant Rule-based Judgment (MARJ) pipeline specifically tailored for assessing answer correctness of physics problems, ensuring accurate evaluation. Our evaluation of 31 leading LLMs shows that the highest overall accuracy, 49.8% (achieved by OpenAI-o1-mini), emphasizes the necessity for models with stronger physics reasoning skills, beyond math abilities. We hope UGPhysics, along with MARJ, will drive future advancements in AI for physics reasoning. Codes and data are available at https://github.com/YangLabHKUST/UGPhysics .

arxiv情報

著者 Xin Xu,Qiyun Xu,Tong Xiao,Tianhao Chen,Yuchen Yan,Jiaxin Zhang,Shizhe Diao,Can Yang,Yang Wang
発行日 2025-02-05 11:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models はコメントを受け付けていません

Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

要約

監視された微調整(SFT)は、一般的に言語モデルをトレーニングして、指定された指示の注釈付き応答を模倣するために使用されます。
この論文では、このパラダイムに挑戦し、批評微調整(CFT)を提案します。これは、モデルが正しい反応を単に模倣するのではなく、騒々しい反応を批評することを学ぶ戦略です。
批判的思考を強調する人間の学習プロセスに触発されたCFTは、より深い分析と、標準的なSFTによってしばしば見落とされる微妙な理解関係を奨励しています。
CFTの有効性を検証するために、GPT-4Oを教師として使用して([クエリ;ノイジーな応答]、批評)の批評を生成する50KサンプルデータセットをWebInStructから構築します。
このデータセットのCFTは、QWEN2.5、QWEN2.5-MATH、DeepSeek-Mathなどのさまざまなベースモデルを使用して、6つの数学ベンチマークでSFTよりも一貫した4〜10%の改善をもたらします。
さらに、メタマスとヌマナマスのデータセットに拡張し、SFTよりも同様の利益を観察します。
特に、モデルQWEN2.5-MATH-CFTでは、5万の例で8xH100で1時間のトレーニングが必要です。
2Mを超えるサンプルを使用するほとんどのベンチマークで、QWEN2.5-MATH-INSTRUCTのような強力な競合他社に匹敵またはアウトパフォームすることができます。
さらに、140倍のコンピューティングでトレーニングされたDeepSeek-R1レプリケーションであるSimplerlのパフォーマンスと一致する可能性があります。
アブレーション研究は、CFTが騒々しい反応と教師批評モデルの原因に堅牢であることを示しています。
これらの調査結果を通じて、CFTは言語モデルの推論を進めるためのより効果的な代替手段を提供すると主張します。

要約(オリジナル)

Supervised Fine-Tuning (SFT) is commonly used to train language models to imitate annotated responses for given instructions. In this paper, we challenge this paradigm and propose Critique Fine-Tuning (CFT), a strategy where models learn to critique noisy responses rather than simply imitate correct ones. Inspired by human learning processes that emphasize critical thinking, CFT encourages deeper analysis and nuanced understanding-traits often overlooked by standard SFT. To validate the effectiveness of CFT, we construct a 50K-sample dataset from WebInstruct, using GPT-4o as the teacher to generate critiques in the form of ([query; noisy response], critique). CFT on this dataset yields a consistent 4-10% improvement over SFT on six math benchmarks with different base models like Qwen2.5, Qwen2.5-Math and DeepSeek-Math. We further expand to MetaMath and NuminaMath datasets and observe similar gains over SFT. Notably, our model Qwen2.5-Math-CFT only requires 1 hour training on 8xH100 over the 50K examples. It can match or outperform strong competitors like Qwen2.5-Math-Instruct on most benchmarks, which use over 2M samples. Moreover, it can match the performance of SimpleRL, which is a deepseek-r1 replication trained with 140x more compute. Ablation studies show that CFT is robust to the source of noisy response and teacher critique model. Through these findings, we argue that CFT offers a more effective alternative to advance the reasoning of language models.

arxiv情報

著者 Yubo Wang,Xiang Yue,Wenhu Chen
発行日 2025-02-05 11:53:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate はコメントを受け付けていません

Structured Token Retention and Computational Memory Paths in Large Language Models

要約

メモリ保持メカニズムは、拡張シーケンスを処理するために設計された計算アーキテクチャの効率を決定する上で中心的な役割を果たします。
トークン管理のための従来の方法は、しばしば固定保持閾値を課したり、均一な注意の重量分布に依存したりし、拡張されたシーケンスモデリングにおける非効率的なメモリ利用と早期情報の損失につながります。
構造化トークン保持(STR)は、コンテキストの重要性に基づいてトークンの持続性を動的に調整する確率的選択フレームワークを導入し、計算リソースが意味的に関連する要素に割り当てられるようにします。
計算メモリパス(CMP)は、階層メモリの割り当てを通じてこのフレームワークを拡張し、トークン埋め込みの構造化された再配置を通じて保持効率を改良します。
ベースラインモデルとの比較評価は、STRとCMPが長い入力シーケンス全体でトークンの生存率を改善し、処理層全体の累積誤差伝播を減らすことを示しています。
実験結果は、計算オーバーヘッドの減少をさらに示し、文脈的一貫性を分解することなく推論速度を改善します。
トークン分布分析により、構造化されたメモリ割り当てが注意重量計算の過度の冗長性を防ぎ、大規模生成アーキテクチャの情報検索効率を最適化することが明らかになりました。
STRとCMPのオープンソースモデルへの統合は、構造化されたメモリ保持方法論の適応性を示しており、生成テキスト処理、長いコンテキストの理解、およびスケーラブルなシーケンスモデリングにおける適用性を強調しています。

要約(オリジナル)

Memory retention mechanisms play a central role in determining the efficiency of computational architectures designed for processing extended sequences. Conventional methods for token management often impose fixed retention thresholds or rely on uniform attention weight distributions, leading to inefficient memory utilization and premature information loss in extended sequence modeling. Structured Token Retention (STR) introduces a probabilistic selection framework that dynamically adjusts token persistence based on contextual significance, ensuring that computational resources are allocated to semantically relevant elements. Computational Memory Paths (CMP) extend this framework through hierarchical memory allocation, refining retention efficiency through structured reallocation of token embeddings. Comparative assessments against baseline models demonstrate that STR and CMP improve token survival rates across long input sequences while reducing cumulative error propagation across processing layers. Experimental results further indicate reductions in computational overhead, improving inference speed without degrading contextual coherence. Token distribution analyses reveal that structured memory allocation prevents excessive redundancy in attention weight calculations, optimizing information retrieval efficiency in large-scale generative architectures. The integration of STR and CMP into an open-source model illustrates the adaptability of structured memory retention methodologies, highlighting their applicability in generative text processing, long-context comprehension, and scalable sequence modeling.

arxiv情報

著者 Jonathan Delena,Augustin Moreau,Dominic Ravensdale,Frederick Chatterton
発行日 2025-02-05 11:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Structured Token Retention and Computational Memory Paths in Large Language Models はコメントを受け付けていません

Policies and Evaluation for Online Meeting Summarization

要約

ますます多くの会議がデジタルドメインに移行することで、会議の要約は最近、学術研究と商業研究の両方に関心を集めています。
ただし、以前の学術研究では、会議が終了した後に実行されたオフラインタスクとしての会議の要約に焦点を当てています。
この論文では、オンライン会議の要約に関する最初の体系的な研究を実施します。
この目的のために、オンライン要約を実施するためのいくつかのポリシーを提案します。
オフライン設定と比較したこのタスクのユニークな課題について説明し、レイテンシと部分的な概要の品質を評価するための新しいメトリックを定義します。
Automin Datasetの実験では、1)オンラインモデルが強力な要約を作成できることが示されています。2)メトリックにより、中間出力を考慮して、3)適応ポリシーのパフォーマンスを非常に考慮して、さまざまなシステムの品質遅延トレードオフの詳細な分析を可能にします。
スケジュールされたものを修正しました。
これらの調査結果は、より広い研究コミュニティがこの重要なタスクを探求する出発点を提供します。

要約(オリジナル)

With more and more meetings moving to a digital domain, meeting summarization has recently gained interest in both academic and commercial research. However, prior academic research focuses on meeting summarization as an offline task, performed after the meeting concludes. In this paper, we perform the first systematic study of online meeting summarization. For this purpose, we propose several policies for conducting online summarization. We discuss the unique challenges of this task compared to the offline setting and define novel metrics to evaluate latency and partial summary quality. The experiments on the AutoMin dataset show that 1) online models can produce strong summaries, 2) our metrics allow a detailed analysis of different systems’ quality-latency trade-off, also taking into account intermediate outputs and 3) adaptive policies perform better than fixed scheduled ones. These findings provide a starting point for the wider research community to explore this important task.

arxiv情報

著者 Felix Schneider,Marco Turchi,Alex Waibel
発行日 2025-02-05 12:15:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Policies and Evaluation for Online Meeting Summarization はコメントを受け付けていません

Can Large Language Models Predict the Outcome of Judicial Decisions?

要約

大規模な言語モデル(LLM)は、多様なドメインにわたって自然言語処理(NLP)に優れた機能を示しています。
ただし、アラビア語のような低リソース言語の法的判断予測(LJP)などの専門的なタスクへの適用は、既存のままです。
この作業では、サウジアラビアの商業裁判所の判決から収集および前処理されたアラビア語のLJPデータセットを開発することにより、このギャップに対処します。
Qloraを使用してゼロショット、ワンショット、微調整などのさまざまな構成の下で、Llama-3.2-3bおよびLlama-3.1-8bを含む最先端のオープンソースLLMをベンチマークします。
さらに、定量的メトリック(BLEとルージュ)と定性的評価(一貫性、法律言語、明確さ)を組み合わせた包括的な評価フレームワークを使用しました。
我々の結果は、微調整された小規模モデルが、タスク固有のコンテキストで大きなモデルに匹敵するパフォーマンスを達成しながら、重要なリソース効率を提供することを示しています。
さらに、モデルの出力に対する迅速なエンジニアリングと微調整の影響を調査し、パフォーマンスの変動性と指導の感度に関する洞察を提供します。
データセット、実装コード、モデルを公開されているモデルを作成することにより、アラビア語の法的NLPの将来の研究のための堅牢な基盤を確立します。

要約(オリジナル)

Large Language Models (LLMs) have shown exceptional capabilities in Natural Language Processing (NLP) across diverse domains. However, their application in specialized tasks such as Legal Judgment Prediction (LJP) for low-resource languages like Arabic remains underexplored. In this work, we address this gap by developing an Arabic LJP dataset, collected and preprocessed from Saudi commercial court judgments. We benchmark state-of-the-art open-source LLMs, including LLaMA-3.2-3B and LLaMA-3.1-8B, under varying configurations such as zero-shot, one-shot, and fine-tuning using QLoRA. Additionally, we used a comprehensive evaluation framework combining quantitative metrics (BLEU and ROUGE) and qualitative assessments (Coherence, legal language, clarity). Our results demonstrate that fine-tuned smaller models achieve comparable performance to larger models in task-specific contexts while offering significant resource efficiency. Furthermore, we investigate the effects of prompt engineering and fine-tuning on model outputs, providing insights into performance variability and instruction sensitivity. By making the dataset, implementation code, and models publicly available, we establish a robust foundation for future research in Arabic legal NLP.

arxiv情報

著者 Mohamed Bayan Kmainasi,Ali Ezzat Shahroor,Amani Al-Ghraibah
発行日 2025-02-05 12:17:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Can Large Language Models Predict the Outcome of Judicial Decisions? はコメントを受け付けていません

Code-Optimise: Self-Generated Preference Data for Correctness and Efficiency

要約

コード言語モデルは、通常、ランタイムを考慮せずに、正確なソリューションを生成するために訓練されています。
一方、実行最適化を調査した以前の作品では、機能的正しさの対応する低下が観察されています。
そのために、Code-Optimiseを紹介します。これは、自己生成の優先度データを介して学習信号として、正確性(合格、失敗)とランタイム(迅速、遅い)の両方を組み込んだフレームワークを紹介します。
私たちのフレームワークは、学習信号のより大きなモデルへの依存を避けながら、過剰適合を減らすソリューションを動的に選択するため、軽量で堅牢です。
Code-Optimiseは、Pass@Kの大幅な改善を達成しながら、競争力のあるベースラインランタイムをドメイン内データでさらに6%、ドメイン外データで最大3%減少させます。
副産物として、生成された溶液の平均長は、MBPPで最大48%、ヒューマン量で23%減少し、より速く、より安価な推論をもたらします。
生成されたデータとコードベースは、https://github.com/huawei-noah/hebo/tree/code_optimiseでオープンソースをかけています。

要約(オリジナル)

Code Language Models have been trained to generate accurate solutions, typically with no regard for runtime. On the other hand, previous works that explored execution optimisation have observed corresponding drops in functional correctness. To that end, we introduce Code-Optimise, a framework that incorporates both correctness (passed, failed) and runtime (quick, slow) as learning signals via self-generated preference data. Our framework is both lightweight and robust as it dynamically selects solutions to reduce overfitting while avoiding a reliance on larger models for learning signals. Code-Optimise achieves significant improvements in pass@k while decreasing the competitive baseline runtimes by an additional 6% for in-domain data and up to 3% for out-of-domain data. As a by-product, the average length of the generated solutions is reduced by up to 48% on MBPP and 23% on HumanEval, resulting in faster and cheaper inference. The generated data and codebase is open-sourced at https://github.com/huawei-noah/HEBO/tree/Code_Optimise.

arxiv情報

著者 Leonidas Gee,Milan Gritta,Gerasimos Lampouras,Ignacio Iacobacci
発行日 2025-02-05 12:29:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Code-Optimise: Self-Generated Preference Data for Correctness and Efficiency はコメントを受け付けていません

SimulPL: Aligning Human Preferences in Simultaneous Machine Translation

要約

同時機械翻訳(SIMT)は、ストリーミングソース入力を受信しながら翻訳を生成します。
これには、SIMTモデルが読み取り/書き込みポリシーを学習し、いつ翻訳するか、いつより多くのソース入力を待つかを決定する必要があります。
多くの言語研究は、SIMTシナリオの視聴者が正確な翻訳、より単純な構文、不必要なレイテンシなど、明確な好みを持っていることを示しています。
SIMTモデルをこれらの人間の好みに合わせて調整することは、パフォーマンスを改善するために重要です。
しかし、この問題はまだ未開拓のままです。
さらに、SIMTタスクの優先最適化も困難です。
既存の方法は、生成された応答の最適化のみに焦点を当てており、レイテンシに関連する人間の好みと、優先最適化段階での読み取り/書き込みポリシーの最適化を無視します。
これらの課題に対処するために、SIMTタスクに合わせた優先学習フレームワークである同時優先学習(SIMULPL)を提案します。
SIMULPLフレームワークでは、SIMTの人間の好みを5つの側面に分類します。
}。
最初の4つの設定を活用することにより、SIMTタスクの優先データを生成する際にGPT-4/4oを効率的にガイドするために、人間の選好プロンプトを構築します。
優先最適化フェーズでは、SIMULPLは\ TextBF {Latency Preference}を最適化目標に統合し、SIMTモデルが読み取り/書き込みポリシーを改善できるようにし、それにより人間の好みとより効果的に整合します。
実験結果は、Zh $ \ rightArrow $ en、de $ \ rightArrow $ en、およびen $ \ rightArrow $ zh simtタスクのすべてのレイテンシレベルにわたって人間の好みとより良い整合性を示すことを示しています。
データとコードはhttps://github.com/eurekafornlp/simulplで入手できます。

要約(オリジナル)

Simultaneous Machine Translation (SiMT) generates translations while receiving streaming source inputs. This requires the SiMT model to learn a read/write policy, deciding when to translate and when to wait for more source input. Numerous linguistic studies indicate that audiences in SiMT scenarios have distinct preferences, such as accurate translations, simpler syntax, and no unnecessary latency. Aligning SiMT models with these human preferences is crucial to improve their performances. However, this issue still remains unexplored. Additionally, preference optimization for SiMT task is also challenging. Existing methods focus solely on optimizing the generated responses, ignoring human preferences related to latency and the optimization of read/write policy during the preference optimization phase. To address these challenges, we propose Simultaneous Preference Learning (SimulPL), a preference learning framework tailored for the SiMT task. In the SimulPL framework, we categorize SiMT human preferences into five aspects: \textbf{translation quality preference}, \textbf{monotonicity preference}, \textbf{key point preference}, \textbf{simplicity preference}, and \textbf{latency preference}. By leveraging the first four preferences, we construct human preference prompts to efficiently guide GPT-4/4o in generating preference data for the SiMT task. In the preference optimization phase, SimulPL integrates \textbf{latency preference} into the optimization objective and enables SiMT models to improve the read/write policy, thereby aligning with human preferences more effectively. Experimental results indicate that SimulPL exhibits better alignment with human preferences across all latency levels in Zh$\rightarrow$En, De$\rightarrow$En and En$\rightarrow$Zh SiMT tasks. Our data and code will be available at https://github.com/EurekaForNLP/SimulPL.

arxiv情報

著者 Donglei Yu,Yang Zhao,Jie Zhu,Yangyifan Xu,Yu Zhou,Chengqing Zong
発行日 2025-02-05 12:36:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SimulPL: Aligning Human Preferences in Simultaneous Machine Translation はコメントを受け付けていません

Teaching Large Language Models Number-Focused Headline Generation With Key Element Rationales

要約

数に焦点を当てた見出しの生成は、高いテキストの品質と正確な数値精度の両方を必要とする要約タスクであり、大規模な言語モデル(LLMS)にユニークな課題をもたらします。
文献の既存の研究は、テキストの品質または数値的推論のいずれかにのみ焦点を当てているため、この課題に対処するには不十分です。
この論文では、ニュース記事のトピック、エンティティ、および数値推論(10)の重要な要素を含む理論的根拠を使用するための新しい考え方のフレームワークを提案し、LLMSがトピックに沿った高品質のテキストを生成する機能を強化します
正確な数値精度で。
具体的には、教師LLMが監督データとして10の理論的根拠を生成するために採用され、学生LLMを教えて微調整するために使用されます。
私たちのアプローチでは、学生LLMは、数値推論とトピックに整列した数値見出しの生成のための能力を強化した理論的根拠の自動生成を教えています。
実験は、私たちのアプローチがテキストの品質と数値の精度の両方で優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

Number-focused headline generation is a summarization task requiring both high textual quality and precise numerical accuracy, which poses a unique challenge for Large Language Models (LLMs). Existing studies in the literature focus only on either textual quality or numerical reasoning and thus are inadequate to address this challenge. In this paper, we propose a novel chain-of-thought framework for using rationales comprising key elements of the Topic, Entities, and Numerical reasoning (TEN) in news articles to enhance the capability for LLMs to generate topic-aligned high-quality texts with precise numerical accuracy. Specifically, a teacher LLM is employed to generate TEN rationales as supervision data, which are then used to teach and fine-tune a student LLM. Our approach teaches the student LLM automatic generation of rationales with enhanced capability for numerical reasoning and topic-aligned numerical headline generation. Experiments show that our approach achieves superior performance in both textual quality and numerical accuracy.

arxiv情報

著者 Zhen Qian,Xiuzhen Zhang,Xiaofei Xu,Feng Xia
発行日 2025-02-05 12:39:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Teaching Large Language Models Number-Focused Headline Generation With Key Element Rationales はコメントを受け付けていません

Compressing Large Language Models with Automated Sub-Network Search

要約

大規模な言語モデル(LLMS)は、例外的な推論能力を示しており、コモンセンスの推論や指導などの多様なタスク全体で強力な一般化を可能にします。
ただし、LLMSスケールのように、推論コストはますます禁止され、ライフサイクルで大幅に蓄積します。
このホワイトペーパーでは、LLMSのモデル圧縮がモデルサイズを縮小しながら、下流のタスクのパフォーマンスを改善することを検討します。
これを、パフォーマンスとデバイスのレイテンシの間でバランスをとるサブネットワークのパレート最適なセットを検索することにより、注意ヘッド、ニューロン、層などの構造コンポーネントを自動的にプルーネするニューラルアーキテクチャ検索問題として表現します。
事前に訓練されたモデルから抽出された最先端の構造的剪定アプローチや微調整された小規模なサブネットワークと比較して、私たちの方法は、11の多様なダウンストリームタスクで平均で最大9.85%の改善を達成し、最大22%の改善を達成しました。
デバイスのレイテンシの。

要約(オリジナル)

Large Language Models (LLMs) demonstrate exceptional reasoning abilities, enabling strong generalization across diverse tasks such as commonsense reasoning and instruction following. However, as LLMs scale, inference costs become increasingly prohibitive, accumulating significantly over their life cycle. In this paper we consider model compression for LLMs to reduce model size while improving downstream task performance. We phrase this as a neural architecture search problem that automatically prunes structural components, such as attention heads, neurons, and layers by searching for the Pareto-optimal set of sub-networks balancing between performance and on-device latency. Compared to state-of-the-art structural pruning approaches and fine-tuned smaller sub-networks extracted from the pre-trained model, our method achieves upto 9.85% improvement on average on 11 diverse downstream tasks, while achieving up to 22% improvement of on-device latency.

arxiv情報

著者 Rhea Sanjay Sukthanker,Benedikt Staffler,Frank Hutter,Aaron Klein
発行日 2025-02-05 12:50:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Compressing Large Language Models with Automated Sub-Network Search はコメントを受け付けていません

Scalable In-Context Learning on Tabular Data via Retrieval-Augmented Large Language Models

要約

最近の研究では、大規模な言語モデル(LLM)は、表形式データのトレーニング後にカスタマイズされた場合、一般的な表形式のコンテキスト学習(TABICL)機能を獲得できることが示されています。
これらのモデルは、多様なデータスキーマとさまざまなタスクドメインを越えて効果的に転送できます。
ただし、既存のLLMベースのTAPICLアプローチは、LLMSのシーケンス長の制限により、少数のショットシナリオに制約されます。これは、プレーンテキストで表される表面インスタンスがかなりのトークンを消費するためです。
この制限に対処し、データサイズのスケーラブルなTabiclを有効にするために、表形式データに合わせた検索されたAugmented LLMSを提案します。
当社のアプローチには、LLMの検索ガイド付き命令調整と組み合わせたカスタマイズされた検索モジュールが組み込まれています。
これにより、LLMはより大きなデータセットを効果的に活用し、69の広く認識されているデータセットでパフォーマンスが大幅に向上し、有望なスケーリング動作を実証することができます。
最先端の表形式モデルとの広範な比較により、LLMベースのTabiclは全体的なパフォーマンスでよく調整された数値モデルに遅れをとっていますが、限られたコンテキストで強力なアルゴリズムを明らかにし、アンサンブルの多様性を強化し、特定のデータセットに優れています。
これらのユニークなプロパティは、スケーラブルな表形式データ学習のための普遍的でアクセス可能なインターフェイスとしての言語の可能性を強調しています。

要約(オリジナル)

Recent studies have shown that large language models (LLMs), when customized with post-training on tabular data, can acquire general tabular in-context learning (TabICL) capabilities. These models are able to transfer effectively across diverse data schemas and different task domains. However, existing LLM-based TabICL approaches are constrained to few-shot scenarios due to the sequence length limitations of LLMs, as tabular instances represented in plain text consume substantial tokens. To address this limitation and enable scalable TabICL for any data size, we propose retrieval-augmented LLMs tailored to tabular data. Our approach incorporates a customized retrieval module, combined with retrieval-guided instruction-tuning for LLMs. This enables LLMs to effectively leverage larger datasets, achieving significantly improved performance across 69 widely recognized datasets and demonstrating promising scaling behavior. Extensive comparisons with state-of-the-art tabular models reveal that, while LLM-based TabICL still lags behind well-tuned numeric models in overall performance, it uncovers powerful algorithms under limited contexts, enhances ensemble diversity, and excels on specific datasets. These unique properties underscore the potential of language as a universal and accessible interface for scalable tabular data learning.

arxiv情報

著者 Xumeng Wen,Shun Zheng,Zhen Xu,Yiming Sun,Jiang Bian
発行日 2025-02-05 13:16:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Scalable In-Context Learning on Tabular Data via Retrieval-Augmented Large Language Models はコメントを受け付けていません