Computational, Data-Driven, and Physics-Informed Machine Learning Approaches for Microstructure Modeling in Metal Additive Manufacturing

要約

金属積層造形は、これまでにない設計の自由度と、カスタマイズされた複雑なコンポーネントの製造を可能にします。しかし、金属AMプロセスに固有の急速な溶融と凝固のダイナミクスは、機械的特性とその後の機能性に大きな影響を与える不均質で非平衡な微細構造を生成します。空間的・時間的スケールにわたって微細構造とその進化を予測することは、プロセスの最適化と欠陥の緩和のための中心的な課題です。従来の実験技術や物理ベースのシミュレーションは、物理的な基礎と貴重な洞察を提供する一方で、決定的な限界に直面している。対照的に、データ駆動型の機械学習は、代替的な予測アプローチと強力なパターン認識を提供しますが、多くの場合、ブラックボックスとして動作し、一般化可能性と物理的一貫性に欠けます。これらの限界を克服するために、物理情報ニューラルネットワークを含む物理情報機械学習は、支配的な物理法則をニューラルネットワークアーキテクチャに埋め込むことによって、精度、透明性、データ効率、および外挿能力を向上させる有望なパラダイムとして登場してきた。本研究では、金属AMにおける微細構造予測のためのモデリング戦略を包括的に評価する。実験的手法、計算手法、データ駆動型手法の長所と限界を詳細に分析し、物理的知識とMLを統合するハイブリッドPIMLフレームワークの最近の進歩に焦点を当てる。データ不足、マルチスケールカップリング、不確実性の定量化などの主要な課題は、将来の方向性とともに議論されている。最終的に、この評価は、部位特異的で微細構造を考慮したプロセス制御と高性能AMコンポーネントの信頼性の高い生産のための、予測可能でスケーラブル、かつ物理的に一貫性のある微細構造モデリングを可能にするPIMLベースのハイブリッドアプローチの重要性を強調している。

要約(オリジナル)

Metal additive manufacturing enables unprecedented design freedom and the production of customized, complex components. However, the rapid melting and solidification dynamics inherent to metal AM processes generate heterogeneous, non-equilibrium microstructures that significantly impact mechanical properties and subsequent functionality. Predicting microstructure and its evolution across spatial and temporal scales remains a central challenge for process optimization and defect mitigation. While conventional experimental techniques and physics-based simulations provide a physical foundation and valuable insights, they face critical limitations. In contrast, data-driven machine learning offers an alternative prediction approach and powerful pattern recognition but often operate as black-box, lacking generalizability and physical consistency. To overcome these limitations, physics-informed machine learning, including physics-informed neural networks, has emerged as a promising paradigm by embedding governing physical laws into neural network architectures, thereby enhancing accuracy, transparency, data efficiency, and extrapolation capabilities. This work presents a comprehensive evaluation of modeling strategies for microstructure prediction in metal AM. The strengths and limitations of experimental, computational, and data-driven methods are analyzed in depth, and highlight recent advances in hybrid PIML frameworks that integrate physical knowledge with ML. Key challenges, such as data scarcity, multi-scale coupling, and uncertainty quantification, are discussed alongside future directions. Ultimately, this assessment underscores the importance of PIML-based hybrid approaches in enabling predictive, scalable, and physically consistent microstructure modeling for site-specific, microstructure-aware process control and the reliable production of high-performance AM components.

arxiv情報

著者 D. Patel,R. Sharma,Y. B. Guo
発行日 2025-05-02 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Computational, Data-Driven, and Physics-Informed Machine Learning Approaches for Microstructure Modeling in Metal Additive Manufacturing はコメントを受け付けていません

A Mathematical Philosophy of Explanations in Mechanistic Interpretability — The Strange Science Part I.i

要約

力学的解釈可能性は、因果的説明を通してニューラルネットワークを理解することを目的としている。メカニズム的解釈可能性研究は、モデルを理解するための原則的なアプローチである、という仮説である。そのため、説明がモデルにどの程度適合しているかの評価である「説明の忠実性」が明確に定義されていることを示す。我々は、機械論的解釈可能性(Mechanistic Interpretability:MI)の定義を、神経回路網のモデルレベル、存在論的、因果機械論的、反証可能な説明を生成する実践として提案し、MIを他の解釈可能性パラダイムと区別し、MI固有の限界を詳述する。また、機械論的解釈可能性の成功に必要な前提条件であると主張する「説明楽観主義の原理」を定式化する。

要約(オリジナル)

Mechanistic Interpretability aims to understand neural networks through causal explanations. We argue for the Explanatory View Hypothesis: that Mechanistic Interpretability research is a principled approach to understanding models because neural networks contain implicit explanations which can be extracted and understood. We hence show that Explanatory Faithfulness, an assessment of how well an explanation fits a model, is well-defined. We propose a definition of Mechanistic Interpretability (MI) as the practice of producing Model-level, Ontic, Causal-Mechanistic, and Falsifiable explanations of neural networks, allowing us to distinguish MI from other interpretability paradigms and detail MI’s inherent limits. We formulate the Principle of Explanatory Optimism, a conjecture which we argue is a necessary precondition for the success of Mechanistic Interpretability.

arxiv情報

著者 Kola Ayonrinde,Louis Jaburi
発行日 2025-05-01 19:08:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | A Mathematical Philosophy of Explanations in Mechanistic Interpretability — The Strange Science Part I.i はコメントを受け付けていません

Knowledge-augmented Pre-trained Language Models for Biomedical Relation Extraction

要約

生物医学文献からの自動関係抽出(RE)は、毎年生み出される膨大な量の科学知識を管理するために不可欠である。近年、REにおいては、事前に訓練された言語モデル(PLM)の利用が一般的なアプローチとなっている。いくつかの研究では、RE用にPLMを微調整する際に、追加のコンテキスト情報を取り入れると性能が向上することが報告されている。しかし、適用されるPLM、拡張に使用されるデータベース、ハイパーパラメータの最適化、および評価方法にはばらつきがあるため、研究間の直接比較は複雑であり、これらの知見の一般化可能性については疑問が残る。本研究では、4つの関係シナリオにまたがる5つのデータセットを一貫した評価フレームワークで評価することにより、コンテキスト情報で拡張されたPLMを評価することで、この研究ギャップに対処する。3つのベースラインPLMを評価し、まず大規模なハイパーパラメータの最適化を行う。最もパフォーマンスの高いモデルを選択した後、テキストによる実体記述、知識グラフからの関係情報、分子構造エンコーディングを含む追加データでそのモデルを強化する。我々の発見は、i)基礎となる言語モデルの選択と、ii)強力な抽出性能を達成するための包括的なハイパーパラメータ最適化の重要性を示している。コンテキスト情報を含めると、全体としてはわずかな改善しか得られないが、アブレーション研究により、微調整中にそのような外部データを含めると、小規模なPLMに大きな利点があることが明らかになった。

要約(オリジナル)

Automatic relationship extraction (RE) from biomedical literature is critical for managing the vast amount of scientific knowledge produced each year. In recent years, utilizing pre-trained language models (PLMs) has become the prevalent approach in RE. Several studies report improved performance when incorporating additional context information while fine-tuning PLMs for RE. However, variations in the PLMs applied, the databases used for augmentation, hyper-parameter optimization, and evaluation methods complicate direct comparisons between studies and raise questions about the generalizability of these findings. Our study addresses this research gap by evaluating PLMs enhanced with contextual information on five datasets spanning four relation scenarios within a consistent evaluation framework. We evaluate three baseline PLMs and first conduct extensive hyperparameter optimization. After selecting the top-performing model, we enhance it with additional data, including textual entity descriptions, relational information from knowledge graphs, and molecular structure encodings. Our findings illustrate the importance of i) the choice of the underlying language model and ii) a comprehensive hyperparameter optimization for achieving strong extraction performance. Although inclusion of context information yield only minor overall improvements, an ablation study reveals substantial benefits for smaller PLMs when such external data was included during fine-tuning.

arxiv情報

著者 Mario Sänger,Ulf Leser
発行日 2025-05-01 19:16:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Knowledge-augmented Pre-trained Language Models for Biomedical Relation Extraction はコメントを受け付けていません

SmallPlan: Leverage Small Language Models for Sequential Path Planning with Simulation-Powered, LLM-Guided Distillation

要約

ロボット工学、特に大規模で動的な環境における効率的な経路計画は、依然として大きなハードルとなっている。大規模言語モデル(LLM)は強力な推論能力を提供するが、計算コストが高く、動的なシナリオへの適応性に限界があるため、エッジデバイスへのリアルタイム展開の妨げとなっている。我々はSmallPlanを発表する。SmallPlanは、LLMを教師モデルとして活用し、高レベルの経路計画タスクのための軽量な小型言語モデル(SLM)を学習する新しいフレームワークである。SmallPlanでは、SLMは、フルスケールの3Dシーンをコンパクトに表現するシーングラフをナビゲートするための最適なアクションシーケンスを提供する。SLMは、LLMに導かれた教師あり微調整(SFT)と強化学習(RL)により、シミュレーションを利用したインターリーブ方式で学習される。この戦略により、SLMはナビゲーションタスクを成功させるだけでなく、移動距離や試行回数などの重要な要素も認識できるようになる。実験を通じて、微調整されたSLMが、幻覚やオーバーフィッティングに悩まされることなく、GPT-4oのような大規模モデルと逐次経路計画で競合する性能を発揮することを実証する。SmallPlanはリソース効率に優れており、エッジデバイスの展開や実用的な自律ロボット工学の発展に適している。

要約(オリジナル)

Efficient path planning in robotics, particularly within large-scale, dynamic environments, remains a significant hurdle. While Large Language Models (LLMs) offer strong reasoning capabilities, their high computational cost and limited adaptability in dynamic scenarios hinder real-time deployment on edge devices. We present SmallPlan — a novel framework leveraging LLMs as teacher models to train lightweight Small Language Models (SLMs) for high-level path planning tasks. In SmallPlan, the SLMs provide optimal action sequences to navigate across scene graphs that compactly represent full-scaled 3D scenes. The SLMs are trained in a simulation-powered, interleaved manner with LLM-guided supervised fine-tuning (SFT) and reinforcement learning (RL). This strategy not only enables SLMs to successfully complete navigation tasks but also makes them aware of important factors like travel distance and number of trials. Through experiments, we demonstrate that the fine-tuned SLMs perform competitively with larger models like GPT-4o on sequential path planning, without suffering from hallucination and overfitting. SmallPlan is resource-efficient, making it well-suited for edge-device deployment and advancing practical autonomous robotics.

arxiv情報

著者 Quang P. M. Pham,Khoi T. N. Nguyen,Nhi H. Doan,Cuong A. Pham,Kentaro Inui,Dezhen Song
発行日 2025-05-01 19:44:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.RO | SmallPlan: Leverage Small Language Models for Sequential Path Planning with Simulation-Powered, LLM-Guided Distillation はコメントを受け付けていません

CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing

要約

大規模言語モデルは、様々なタスクにおいて目覚ましい成功を収めているが、推論時に高い計算コストに悩まされ、リソースに制約のあるアプリケーションへの導入が制限されている。この問題に対処するために、我々はトークンレベルのルーティング戦略を通じて、小規模言語モデルと大規模言語モデル(SLMs ⇄ LLMs)間の効率的な連携を可能にする、新しいCollaborative Inference with Token-lEvel Routing (CITER)フレームワークを提案する。具体的には、CITERは効率化のためにクリティカルでないトークンをSLMにルーティングし、汎化品質のためにクリティカルなトークンをLLMにルーティングする。我々はルータの学習をポリシーの最適化として定式化し、ルータは予測の品質と生成の推論コストの両方に基づいて報酬を受け取る。これにより、ルータはトークン・レベルのルーティング・スコアを予測することを学習し、現在のトークンとその決定の将来の影響の両方に基づいてルーティング決定を行うことができる。報酬評価プロセスをさらに加速するために、報酬推定のコストを大幅に削減し、我々のアプローチの実用性を向上させるショートカットを導入する。5つのベンチマークデータセットでの広範な実験により、CITERが高品質な生成を維持しながら推論コストを削減し、リアルタイムでリソースに制約のあるアプリケーションに有望なソリューションを提供することが実証された。我々のデータとコードはhttps://github.com/aiming-lab/CITER。

要約(オリジナル)

Large language models have achieved remarkable success in various tasks but suffer from high computational costs during inference, limiting their deployment in resource-constrained applications. To address this issue, we propose a novel Collaborative Inference with Token-lEvel Routing (CITER) framework that enables efficient collaboration between small and large language models (SLMs \& LLMs) through a token-level routing strategy. Specifically, CITER routes non-critical tokens to an SLM for efficiency and routes critical tokens to an LLM for generalization quality. We formulate router training as a policy optimization, where the router receives rewards based on both the quality of predictions and the inference costs of generation. This allows the router to learn to predict token-level routing scores and make routing decisions based on both the current token and the future impact of its decisions. To further accelerate the reward evaluation process, we introduce a shortcut which significantly reduces the costs of the reward estimation and improving the practicality of our approach. Extensive experiments on five benchmark datasets demonstrate that CITER reduces the inference costs while preserving high-quality generation, offering a promising solution for real-time and resource-constrained applications. Our data and code are available at https://github.com/aiming-lab/CITER.

arxiv情報

著者 Wenhao Zheng,Yixiao Chen,Weitong Zhang,Souvik Kundu,Yun Li,Zhengzhong Liu,Eric P. Xing,Hongyi Wang,Huaxiu Yao
発行日 2025-05-01 20:11:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PF | CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing はコメントを受け付けていません

Activation Steering in Neural Theorem Provers

要約

大規模言語モデル(LLM)は、Leanのような証明アシスタントを用いた形式定理の証明に有望である。しかし、現在の言語モデルは証明の次のステップを予測するのに苦労しており、実務家はLLMの能力を向上させるために様々なサンプリング技術を使用している。我々は、LLMが正しい戦術を予測する能力があることを観察している。しかし、LLMは、候補戦術の集合の中でそれを適切にランク付けするという課題に直面しており、全体的な選択プロセスに影響を及ぼしている。このハードルを克服するために、我々は活性化ステアリングを用いてLLMの応答を誘導し、推論時の世代を改善する。我々の結果は、活性化ステアリングが、LLMの定理証明能力を向上させるために、特化した微調整に代わる有望な軽量な代替手段を提供することを示唆しており、特にリソースに制約のある環境において価値がある。

要約(オリジナル)

Large Language Models (LLMs) have shown promise in proving formal theorems using proof assistants like Lean. However, current state of the art language models struggles to predict next step in proofs leading practitioners to use different sampling techniques to improve LLMs capabilities. We observe that the LLM is capable of predicting the correct tactic; however, it faces challenges in ranking it appropriately within the set of candidate tactics, affecting the overall selection process. To overcome this hurdle, we use activation steering to guide LLMs responses to improve the generations at the time of inference. Our results suggest that activation steering offers a promising lightweight alternative to specialized fine-tuning for enhancing theorem proving capabilities in LLMs, particularly valuable in resource-constrained environments.

arxiv情報

著者 Shashank Kirtania
発行日 2025-05-01 20:40:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Activation Steering in Neural Theorem Provers はコメントを受け付けていません

NeMo-Inspector: A Visualization Tool for LLM Generation Analysis

要約

大規模言語モデル(LLM)を新しいタスクに適応させ、その全体的な能力を向上させるには、多くの場合、大規模で高品質な学習データセットが必要です。大規模に生成された合成データは、実世界のデータが乏しかったり、入手が困難な場合の貴重な代替手段となります。しかし、合成データセットの品質を確保することは困難であり、開発者は多数のサンプルを手作業で検査・改良し、エラーや改善すべき点を特定しなければなりません。このプロセスには時間がかかり、専用のツールが必要です。我々は、統合された推論機能を持つ合成データセットの分析を簡素化するために設計されたオープンソースツールであるNeMo-Inspectorを紹介する。2つの実例を通して、その有効性を実証する。NeMo-Inspectorを用いて合成生成されたGSM-Plusデータセットの解析とクリーニングを行ったところ、低品質サンプルが46.99%から19.51%へと大幅に減少した。また、このツールはOpenMathモデルの生成エラーの特定と修正にも役立ち、MATHデータセットでは1.92%、GSM8KデータセットではNemotron-4-340Bから生成された合成データで微調整されたMeta-Llama-3-8Bモデルの精度が4.17%向上しました。

要約(オリジナル)

Adapting Large Language Models (LLMs) to novel tasks and enhancing their overall capabilities often requires large, high-quality training datasets. Synthetic data, generated at scale, serves a valuable alternative when real-world data is scarce or difficult to obtain. However, ensuring the quality of synthetic datasets is challenging, as developers must manually inspect and refine numerous samples to identify errors and areas for improvement. This process is time-consuming and requires specialized tools. We introduce NeMo-Inspector, an open-source tool designed to simplify the analysis of synthetic datasets with integrated inference capabilities. We demonstrate its effectiveness through two real-world cases. Analysis and cleaning of the synthetically generated GSM-Plus dataset with NeMo-Inspector led to a significant decrease in low-quality samples from 46.99% to 19.51%. The tool also helped identify and correct generation errors in OpenMath models, improving accuracy by 1.92% on the MATH dataset and by 4.17% on the GSM8K dataset for a Meta-Llama-3-8B model fine-tuned on synthetic data generated from Nemotron-4-340B.

arxiv情報

著者 Daria Gitman,Igor Gitman,Evelina Bakhturina
発行日 2025-05-01 22:47:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | NeMo-Inspector: A Visualization Tool for LLM Generation Analysis はコメントを受け付けていません

Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models

要約

本研究では、ディープラーニング(DL)モデルの精度と、クラッシュナラティブの分類における専門家の一致との関係を調査する。BERT変種、USE、ゼロショット分類器を含む5つのDLモデルを専門家のラベルとナラティブに対して評価し、4つの大規模言語モデル(LLM)に分析を拡張する:GPT-4、LLaMA 3、Qwen、Claudeである。その結果、技術的な精度が高いモデルは、人間の専門家との一致度が低いことが多い一方で、LLMは精度が低いにもかかわらず、専門家との一致度が高いという逆の関係が明らかになった。我々はコーエンのカッパと主成分分析(PCA)を用いてモデルと専門家の一致を定量化・可視化し、SHAP分析を用いて誤分類を説明する。その結果、専門家による整列モデルは、場所固有のキーワードよりも、文脈的・時間的手がかりに依存することが示された。これらの知見は、セーフティクリティカルな自然言語処理タスクでは、精度だけでは不十分であることを示唆している。我々は、専門家の一致をモデル評価フレームワークに組み込むことを主張し、衝突解析パイプラインにおける解釈可能なツールとしてのLLMの可能性を強調する。

要約(オリジナル)

This study investigates the relationship between deep learning (DL) model accuracy and expert agreement in classifying crash narratives. We evaluate five DL models — including BERT variants, USE, and a zero-shot classifier — against expert labels and narratives, and extend the analysis to four large language models (LLMs): GPT-4, LLaMA 3, Qwen, and Claude. Our findings reveal an inverse relationship: models with higher technical accuracy often show lower agreement with human experts, while LLMs demonstrate stronger expert alignment despite lower accuracy. We use Cohen’s Kappa and Principal Component Analysis (PCA) to quantify and visualize model-expert agreement, and employ SHAP analysis to explain misclassifications. Results show that expert-aligned models rely more on contextual and temporal cues than location-specific keywords. These findings suggest that accuracy alone is insufficient for safety-critical NLP tasks. We argue for incorporating expert agreement into model evaluation frameworks and highlight the potential of LLMs as interpretable tools in crash analysis pipelines.

arxiv情報

著者 Sudesh Ramesh Bhagat,Ibne Farabi Shihab,Anuj Sharma
発行日 2025-05-01 23:02:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models はコメントを受け付けていません

How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias

要約

言語認識タスクは自然言語処理(NLP)の基本であり、大規模言語モデル(LLM)の性能ベンチマークに広く用いられている。これらのタスクはまた、変換器の動作メカニズムを説明する上でも重要な役割を果たしている。本研究では、「偶数ペア」と「パリティチェック」と呼ばれる、規則的な言語認識のカテゴリーにおける2つの代表的なタスクに焦点を当てる。我々の目標は、注意層と線形層からなる1層変換器が、勾配降下下での学習ダイナミクスを理論的に解析することにより、これらのタスクを解くことをどのように学習するかを探ることである。偶数ペアは1層変換器によって直接解くことができるが、パリティチェックは、偶数ペア課題に対して十分に訓練された変換器の推論段階、あるいは1層変換器の訓練に、Chain-of-Thought(CoT)を統合することによって解く必要がある。どちらの問題に対しても、注意層と線形層の共同訓練は2つの異なる段階を示すことが我々の分析からわかった。第1段階では、注意層は急速に成長し、データ列を分離可能なベクトルにマッピングする。第二段階では、注意層は安定になり、一方線形層は対数的に成長し、注意層の出力を正と負のサンプルに正しく分離する最大マージンの超平面に方向が近づき、損失は$O(1/t)$の割合で減少する。我々の実験はこれらの理論結果を検証する。

要約(オリジナル)

Language recognition tasks are fundamental in natural language processing (NLP) and have been widely used to benchmark the performance of large language models (LLMs). These tasks also play a crucial role in explaining the working mechanisms of transformers. In this work, we focus on two representative tasks in the category of regular language recognition, known as `even pairs’ and `parity check’, the aim of which is to determine whether the occurrences of certain subsequences in a given sequence are even. Our goal is to explore how a one-layer transformer, consisting of an attention layer followed by a linear layer, learns to solve these tasks by theoretically analyzing its training dynamics under gradient descent. While even pairs can be solved directly by a one-layer transformer, parity check need to be solved by integrating Chain-of-Thought (CoT), either into the inference stage of a transformer well-trained for the even pairs task, or into the training of a one-layer transformer. For both problems, our analysis shows that the joint training of attention and linear layers exhibits two distinct phases. In the first phase, the attention layer grows rapidly, mapping data sequences into separable vectors. In the second phase, the attention layer becomes stable, while the linear layer grows logarithmically and approaches in direction to a max-margin hyperplane that correctly separates the attention layer outputs into positive and negative samples, and the loss decreases at a rate of $O(1/t)$. Our experiments validate those theoretical results.

arxiv情報

著者 Ruiquan Huang,Yingbin Liang,Jing Yang
発行日 2025-05-02 00:07:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, stat.ML | How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias はコメントを受け付けていません

AutoPrep: Natural Language Question-Aware Data Preparation with a Multi-Agent Framework

要約

表形式質問応答(TQA)として知られる、表に関する自然言語(NL)の質問に答えることは、構造化されたデータから意味のある洞察を迅速かつ効率的に抽出し、人間の言語と機械可読形式のギャップを効果的に埋めることができるため、非常に重要である。これらのテーブルの多くは、ウェブ・ソースや実世界のシナリオに由来するものであり、正確な回答を保証するためには綿密なデータ準備(データ・プレパレーション)が必要である。しかし、NLの質問のためにこのようなテーブルを準備することは、従来のデータ準備を超える新しい要件を導入します。この質問を意識したデータ準備には、特定の質問に合わせた列の導出やフィルタリング、質問を意識した値の正規化や変換などの特定のタスクが含まれ、このコンテキストではよりニュアンスのあるアプローチの必要性が強調されます。上記のタスクはそれぞれユニークであるため、単一のモデル(またはエージェント)では、すべてのシナリオで効果的に機能しない可能性があります。本論文では、より正確で文脈に即した応答を保証するために、それぞれが特定のタイプのデータ準備に特化した複数のエージェントの強みを活用する、大規模言語モデル(LLM)ベースのマルチエージェントフレームワークであるAutoPrepを提案する。AutoPrepは、テーブル上のNL質問が与えられた場合、3つの主要コンポーネントを通してデータプリパレーションを実行する。プランナー:論理的なプランを決定し、ハイレベルな操作のシーケンスの概要を示します。プログラマー:対応する低レベルコードを生成することで、この論理プランを物理プランに変換します。エクゼキュータ:生成されたコードを実行してテーブルを処理する。このマルチエージェントフレームワークをサポートするために、高レベル操作提案のための新しいChain-of-Clauses推論機構と、低レベルコード生成のためのツール支援手法を設計する。

要約(オリジナル)

Answering natural language (NL) questions about tables, known as Tabular Question Answering (TQA), is crucial because it allows users to quickly and efficiently extract meaningful insights from structured data, effectively bridging the gap between human language and machine-readable formats. Many of these tables are derived from web sources or real-world scenarios, which require meticulous data preparation (or data prep) to ensure accurate responses. However, preparing such tables for NL questions introduces new requirements that extend beyond traditional data preparation. This question-aware data preparation involves specific tasks such as column derivation and filtering tailored to particular questions, as well as question-aware value normalization or conversion, highlighting the need for a more nuanced approach in this context. Because each of the above tasks is unique, a single model (or agent) may not perform effectively across all scenarios. In this paper, we propose AutoPrep, a large language model (LLM)-based multi-agent framework that leverages the strengths of multiple agents, each specialized in a certain type of data prep, ensuring more accurate and contextually relevant responses. Given an NL question over a table, AutoPrep performs data prep through three key components. Planner: Determines a logical plan, outlining a sequence of high-level operations. Programmer: Translates this logical plan into a physical plan by generating the corresponding low-level code. Executor: Executes the generated code to process the table. To support this multi-agent framework, we design a novel Chain-of-Clauses reasoning mechanism for high-level operation suggestion, and a tool-augmented method for low-level code generation…

arxiv情報

著者 Meihao Fan,Ju Fan,Nan Tang,Lei Cao,Guoliang Li,Xiaoyong Du
発行日 2025-05-02 00:11:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | AutoPrep: Natural Language Question-Aware Data Preparation with a Multi-Agent Framework はコメントを受け付けていません