An experimental survey and Perspective View on Meta-Learning for Automated Algorithms Selection and Parametrization

要約

最近の文献研究では、複数のメタ学習セットアップで多様化されているアルゴリズムの選択とパラメーター化(ASP)問題に取り組むためにかなりの進歩が遂げられています。
しかし、既存の方法のパフォーマンスを批判的に分析、要約、評価する調査と比較評価が不足しています。
この論文では、この継続的に進化する分野の最先端の概要を説明します。
この調査では、メタラーニングを通じて分類器の選択を追求する動機付けの理由に光を当てています。
この点で、自動機械学習(Automl)は通常、機械学習の民主化の傘下でASPの問題として扱われます。
したがって、Automlは、高度な分析の適用に関心があるが、必要な専門知識が不足しているドメイン科学者がアクセスできる機械学習技術を作成します。
MLアルゴリズムを手動で選択し、関連するハイパーパラメーターをチューニングするタスクを容易にすることができます。
以前の作品のレビューの結果として形成される一般的なフレームワークに基づいて、分類器選択のさまざまなフェーズについて包括的に議論します。
その後、400万人の以前に学んだモデルのベンチマーク知識ベースを提案し、08分類アルゴリズムと400のベンチマークデータセットに基づいて分類器選択の顕著な方法の広範な比較評価を提示します。
比較研究では、既存の研究の強みと制限を強調しながら、アルゴリズム選択方法のパフォーマンスを定量的に評価します。

要約(オリジナル)

Considerable progress has been made in the recent literature studies to tackle the Algorithms Selection and Parametrization (ASP) problem, which is diversified in multiple meta-learning setups. Yet there is a lack of surveys and comparative evaluations that critically analyze, summarize and assess the performance of existing methods. In this paper, we provide an overview of the state of the art in this continuously evolving field. The survey sheds light on the motivational reasons for pursuing classifiers selection through meta-learning. In this regard, Automated Machine Learning (AutoML) is usually treated as an ASP problem under the umbrella of the democratization of machine learning. Accordingly, AutoML makes machine learning techniques accessible to domain scientists who are interested in applying advanced analytics but lack the required expertise. It can ease the task of manually selecting ML algorithms and tuning related hyperparameters. We comprehensively discuss the different phases of classifiers selection based on a generic framework that is formed as an outcome of reviewing prior works. Subsequently, we propose a benchmark knowledge base of 4 millions previously learned models and present extensive comparative evaluations of the prominent methods for classifiers selection based on 08 classification algorithms and 400 benchmark datasets. The comparative study quantitatively assesses the performance of algorithms selection methods along while emphasizing the strengths and limitations of existing studies.

arxiv情報

著者 Moncef Garouani
発行日 2025-04-08 16:51:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | An experimental survey and Perspective View on Meta-Learning for Automated Algorithms Selection and Parametrization はコメントを受け付けていません

A new framework for prognostics in decentralized industries: Enhancing fairness, security, and transparency through Blockchain and Federated Learning

要約

グローバル産業が産業5.0に向かって移行するにつれて、PMは費用対効果の高い運用の回復力とますますスマートな製造環境でのダウンタイムを最小限に抑えるために依然として重要です。この章では、FLとブロックチェーンBCテクノロジーの統合がどのように分散型産業エコーシスとしての人工産業エコーシスとしての人工産業エコーシスの拡大されたデータを維持するために、分散型産業エコーシスを維持するために、分散型産業エコーシスの拡大環境を維持するために耐用年数を残す機械の統合をどのように検討しますか?
製造はより一般的になりますこの章はFLを活用して複数のサイトでローカライズされたモデルトレーニングを可能にしながら、BCを利用してネットワーク間で信頼の透明性とデータの整合性を確保します。
NASA CMAPSSデータセットを使用したネットワークの実験的検証は、現実世界のシナリオでモデルの有効性を実証し、GitHubのオープンソースコードを通じて、コラボレーション開発を招待して業界のイノベーションを促進するためのオープンソースコードを通じて、より広範な研究コミュニティに調査結果を拡張します。

要約(オリジナル)

As global industries transition towards Industry 5.0 predictive maintenance PM remains crucial for cost effective operations resilience and minimizing downtime in increasingly smart manufacturing environments In this chapter we explore how the integration of Federated Learning FL and blockchain BC technologies enhances the prediction of machinerys Remaining Useful Life RUL within decentralized and human centric industrial ecosystems Traditional centralized data approaches raise concerns over privacy security and scalability especially as Artificial intelligence AI driven smart manufacturing becomes more prevalent This chapter leverages FL to enable localized model training across multiple sites while utilizing BC to ensure trust transparency and data integrity across the network This BC integrated FL framework optimizes RUL predictions enhances data privacy and security establishes transparency and promotes collaboration in decentralized manufacturing It addresses key challenges such as maintaining privacy and security ensuring transparency and fairness and incentivizing participation in decentralized networks Experimental validation using the NASA CMAPSS dataset demonstrates the model effectiveness in real world scenarios and we extend our findings to the broader research community through open source code on GitHub inviting collaborative development to drive innovation in Industry 5.0

arxiv情報

著者 T. Q. D. Pham,K. D. Tran,Khanh T. P. Nguyen,X. V. Tran,L. Köehl,K. P. Tran
発行日 2025-04-08 16:53:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | A new framework for prognostics in decentralized industries: Enhancing fairness, security, and transparency through Blockchain and Federated Learning はコメントを受け付けていません

From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models

要約

ドキュメントとビデオの理解、コンテキスト学習、推論時間スケーリングなど、幅広いアプリケーションには、長いコンテキスト機能が不可欠です。これらはすべて、テキストとマルチモーダルデータの長いシーケンスにわたってモデルを処理および推論する必要があります。
この作業では、Aligned Instruceモデルから超長いコンテキストLLMを構築するための効率的なトレーニングレシピを紹介し、コンテキストの長さの境界を128Kから1M、2M、および4Mトークンに押し込みます。
当社のアプローチは、コンテキストウィンドウを拡張するための効率的な継続的な事前トレーニング戦略を活用し、効果的な指導チューニングを採用して、指導の公開能力と推論能力を維持します。
llama3.1-intructに基づいてレシピで構築されたultralong-8bは、多様な長期コンテストベンチマークで最先端のパフォーマンスを実現しています。
重要なことに、私たちのアプローチで訓練されたモデルは、標準ベンチマークでの競争力のあるパフォーマンスを維持し、長いコンテキストタスクと短いコンテキストタスクの両方のバランスの取れた改善を示しています。
さらに、スケーリング戦略とデータ構成の影響を強調し、主要な設計の選択肢の詳細な分析を提供します。
私たちの調査結果は、一般的なモデル機能を維持しながら、コンテキストの長さを効率的にスケーリングするための堅牢なフレームワークを確立します。
すべてのモデルの重みをhttps://ultralong.github.io/でリリースします。

要約(オリジナル)

Long-context capabilities are essential for a wide range of applications, including document and video understanding, in-context learning, and inference-time scaling, all of which require models to process and reason over long sequences of text and multimodal data. In this work, we introduce a efficient training recipe for building ultra-long context LLMs from aligned instruct model, pushing the boundaries of context lengths from 128K to 1M, 2M, and 4M tokens. Our approach leverages efficient continued pretraining strategies to extend the context window and employs effective instruction tuning to maintain the instruction-following and reasoning abilities. Our UltraLong-8B, built on Llama3.1-Instruct with our recipe, achieves state-of-the-art performance across a diverse set of long-context benchmarks. Importantly, models trained with our approach maintain competitive performance on standard benchmarks, demonstrating balanced improvements for both long and short context tasks. We further provide an in-depth analysis of key design choices, highlighting the impacts of scaling strategies and data composition. Our findings establish a robust framework for efficiently scaling context lengths while preserving general model capabilities. We release all model weights at: https://ultralong.github.io/.

arxiv情報

著者 Chejian Xu,Wei Ping,Peng Xu,Zihan Liu,Boxin Wang,Mohammad Shoeybi,Bo Li,Bryan Catanzaro
発行日 2025-04-08 16:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models はコメントを受け付けていません

AUTALIC: A Dataset for Anti-AUTistic Ableist Language In Context

要約

自閉症と有能主義の理解が増え続けているにつれて、自閉症の人々に対する有能な言語の理解も増え続けています。
このような言語は、その微妙で文脈依存性の性質により、NLP研究で重要な課題をもたらします。
しかし、反自動性のある有能な言語を検出することは、既存のNLPツールが微妙な表現をキャプチャできないことが多いため、未掘削装置のままです。
コンテキストでの反自動性の有能言語の検出に特化した最初のベンチマークデータセットであるAutalicを提示し、フィールドの大きなギャップに対処します。
データセットは、Redditから収集された2,400の自閉症関連の文で構成され、周囲のコンテキストを伴い、神経多様性の背景を持つ訓練された専門家によって注釈が付けられています。
私たちの包括的な評価は、最先端のLLMを含む現在の言語モデルが、反自治の可能性を確実に特定し、人間の判断に合わせて、この領域での制限を強調するのに苦労していることを明らかにしています。
私たちは、Autalicを公開し、個々の注釈を公開します。これは、有能、神経多様性に取り組んでおり、注釈タスクの意見の不一致を研究する研究者にとって貴重なリソースとして役立ちます。
このデータセットは、多様な視点をよりよく反映する、より包括的でコンテキスト認識しているNLPシステムを開発するための重要なステップとして機能します。

要約(オリジナル)

As our understanding of autism and ableism continues to increase, so does our understanding of ableist language towards autistic people. Such language poses a significant challenge in NLP research due to its subtle and context-dependent nature. Yet, detecting anti-autistic ableist language remains underexplored, with existing NLP tools often failing to capture its nuanced expressions. We present AUTALIC, the first benchmark dataset dedicated to the detection of anti-autistic ableist language in context, addressing a significant gap in the field. The dataset comprises 2,400 autism-related sentences collected from Reddit, accompanied by surrounding context, and is annotated by trained experts with backgrounds in neurodiversity. Our comprehensive evaluation reveals that current language models, including state-of-the-art LLMs, struggle to reliably identify anti-autistic ableism and align with human judgments, underscoring their limitations in this domain. We publicly release AUTALIC along with the individual annotations which serve as a valuable resource to researchers working on ableism, neurodiversity, and also studying disagreements in annotation tasks. This dataset serves as a crucial step towards developing more inclusive and context-aware NLP systems that better reflect diverse perspectives.

arxiv情報

著者 Naba Rizvi,Harper Strickland,Daniel Gitelman,Tristan Cooper,Alexis Morales-Flores,Michael Golden,Aekta Kallepalli,Akshat Alurkar,Haaset Owens,Saleha Ahmedi,Isha Khirwadkar,Imani Munyaka,Nedjma Ousidhoum
発行日 2025-04-08 17:08:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AUTALIC: A Dataset for Anti-AUTistic Ableist Language In Context はコメントを受け付けていません

GenoTEX: An LLM Agent Benchmark for Automated Gene Expression Data Analysis

要約

機械学習における最近の進歩により、遺伝子発現データセットからの疾患関連遺伝子の同定が大幅に改善されました。
ただし、これらのプロセスは、多くの場合、広範な専門知識と手動の努力を必要とし、スケーラビリティを制限します。
大規模な言語モデル(LLM)ベースのエージェントは、問題解決能力の増加により、これらのタスクを自動化することに有望を示しています。
このような方法の評価と開発をサポートするために、遺伝子発現データの自動分析のためのベンチマークデータセットであるGenoTexを紹介します。
GenoTexは、計算ゲノミクス標準に従うパイプラインで、データセット選択、前処理、統計分析を含む、幅広い遺伝子形質関連の問題を解決するための分析コードと結果を提供します。
ベンチマークには、正確性と信頼性を確保するために、バイオインフォマティシャンからの専門家がキュレーションした注釈が含まれています。
これらのタスクのベースラインを提供するために、遺伝子発現データセットを協力して分析するために、柔軟な自己修正でマルチステッププログラミングワークフローを採​​用するLLMベースのエージェントのチームであるGenoagentを提示します。
私たちの実験は、ゲノムデータの分析におけるLLMベースの方法の可能性を示していますが、エラー分析は将来の改善のための課題と領域を強調しています。
GenoTexを、遺伝子発現データ分析のためのベンチマークと強化のための有望なリソースとして提案します。
ベンチマークはhttps://github.com/liu-hy/genotexで入手できます。

要約(オリジナル)

Recent advancements in machine learning have significantly improved the identification of disease-associated genes from gene expression datasets. However, these processes often require extensive expertise and manual effort, limiting their scalability. Large Language Model (LLM)-based agents have shown promise in automating these tasks due to their increasing problem-solving abilities. To support the evaluation and development of such methods, we introduce GenoTEX, a benchmark dataset for the automated analysis of gene expression data. GenoTEX provides analysis code and results for solving a wide range of gene-trait association problems, encompassing dataset selection, preprocessing, and statistical analysis, in a pipeline that follows computational genomics standards. The benchmark includes expert-curated annotations from bioinformaticians to ensure accuracy and reliability. To provide baselines for these tasks, we present GenoAgent, a team of LLM-based agents that adopt a multi-step programming workflow with flexible self-correction, to collaboratively analyze gene expression datasets. Our experiments demonstrate the potential of LLM-based methods in analyzing genomic data, while error analysis highlights the challenges and areas for future improvement. We propose GenoTEX as a promising resource for benchmarking and enhancing automated methods for gene expression data analysis. The benchmark is available at https://github.com/Liu-Hy/GenoTEX.

arxiv情報

著者 Haoyang Liu,Shuyu Chen,Ye Zhang,Haohan Wang
発行日 2025-04-08 17:09:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.GN | GenoTEX: An LLM Agent Benchmark for Automated Gene Expression Data Analysis はコメントを受け付けていません

Modeling Challenging Patient Interactions: LLMs for Medical Communication Training

要約

効果的な患者コミュニケーションはヘルスケアにおいて極めて重要ですが、従来の医療訓練には、多様で挑戦的な対人的ダイナミクスへの暴露がしばしば欠けています。
このギャップを埋めるために、この研究では、本物の患者コミュニケーションスタイル、特にSATIRモデルから派生した「告発者」と「合理化イザー」のペルソナをシミュレートするために、大規模な言語モデル(LLMS)の使用を提案し、多様な文化的文脈に対応し、医療専門家のアクセシビリティを強化するための多言語の適用性を確保します。
行動プロンプト、著者のメモ、頑固なメカニズムなど、高度なプロンプトエンジニアリングを活用して、微妙な感情的および会話的特性を具体化する仮想患者(VPS)を開発しました。
医療専門家はこれらのVPSを評価し、信頼性を評価しました(告発者:$ 3.8 \ PM 1.0 $; Rationalizer:$ 3.7 \ PM 0.8 $(1から5))、スタイルを正しく識別しました。
感情分析により明確なプロファイルが明らかになりました。告発者は痛み、怒り、苦痛を示しましたが、合理化者は熟考と落ち着きを示し、病歴を含む事前に定義された詳細な患者の説明と一致しました。
センチメントスコア(ゼロから9のスケール)は、通信スタイルのこれらの違いをさらに検証し、告発者はネガティブ($ 3.1 \ PM 0.6 $)とよりニュートラル($ 4.0 \ PM 0.4 $)トーンを採用しました。
これらの結果は、複雑なコミュニケーションスタイルを複製するLLMSの能力を強調し、医学教育の変革の可能性を提供します。
このアプローチは、現実的で適応性のある患者の相互作用を提供し、共感と診断の洞察力を高めることにより、挑戦的な臨床シナリオをナビゲートするために研修生を装備します。
私たちの調査結果は、AI主導のツールを、微妙なコミュニケーションスキルを育むためのスケーラブルで費用対効果の高いソリューションを提唱し、ヘルスケアトレーニングの将来の革新の基盤を設定します。

要約(オリジナル)

Effective patient communication is pivotal in healthcare, yet traditional medical training often lacks exposure to diverse, challenging interpersonal dynamics. To bridge this gap, this study proposes the use of Large Language Models (LLMs) to simulate authentic patient communication styles, specifically the ‘accuser’ and ‘rationalizer’ personas derived from the Satir model, while also ensuring multilingual applicability to accommodate diverse cultural contexts and enhance accessibility for medical professionals. Leveraging advanced prompt engineering, including behavioral prompts, author’s notes, and stubbornness mechanisms, we developed virtual patients (VPs) that embody nuanced emotional and conversational traits. Medical professionals evaluated these VPs, rating their authenticity (accuser: $3.8 \pm 1.0$; rationalizer: $3.7 \pm 0.8$ on a 5-point Likert scale (from one to five)) and correctly identifying their styles. Emotion analysis revealed distinct profiles: the accuser exhibited pain, anger, and distress, while the rationalizer displayed contemplation and calmness, aligning with predefined, detailed patient description including medical history. Sentiment scores (on a scale from zero to nine) further validated these differences in the communication styles, with the accuser adopting negative ($3.1 \pm 0.6$) and the rationalizer more neutral ($4.0 \pm 0.4$) tone. These results underscore LLMs’ capability to replicate complex communication styles, offering transformative potential for medical education. This approach equips trainees to navigate challenging clinical scenarios by providing realistic, adaptable patient interactions, enhancing empathy and diagnostic acumen. Our findings advocate for AI-driven tools as scalable, cost-effective solutions to cultivate nuanced communication skills, setting a foundation for future innovations in healthcare training.

arxiv情報

著者 Anna Bodonhelyi,Christian Stegemann-Philipps,Alessandra Sonanini,Lea Herschbach,Márton Szép,Anne Herrmann-Werner,Teresa Festl-Wietek,Enkelejda Kasneci,Friederike Holderried
発行日 2025-04-08 17:25:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Modeling Challenging Patient Interactions: LLMs for Medical Communication Training はコメントを受け付けていません

Decentralized Federated Domain Generalization with Style Sharing: A Formal Modeling and Convergence Analysis

要約

連邦学習(FL)の文献の多くは、トレーニング時間とテスト時間の間でローカルデータセット統計が同じままである設定に焦点を当てています。
ドメイン一般化(DG)の最近の進歩は、ソース(トレーニング)ドメインのデータを使用して、目に見えないターゲット(テスト)ドメインのデータによく一般化するモデルをトレーニングすることを目的としています。
この論文では、FLとDGの既存の作業における2つの大きなギャップに動機付けられています。(1)DG目標とトレーニングプロセスの正式な数学的分析の欠如。
(2)FLのDG研究は、従来のスタートポロジーアーキテクチャに限定されています。
2番目のギャップに対処すると、スタイル共有} $($ \ texttt {styleddg} $)を使用して、$ \ textit {分散型フェデレートドメイン一般化を開発します。
さらに、スタイルベースのDGトレーニングの最適化を数学的に分析するための最初の体系的なアプローチを提供することにより、最初のギャップを埋めます。
フレームワーク内に既存の集中DGアルゴリズムをキャストし、その形式を使用して$ \ texttt {styleddg} $をモデル化します。
これに基づいて、$ \ texttt {styleddg} $のサブ線形収束率が取得できる分析条件を取得します。
2つの一般的なDGデータセットでの実験を通じて、$ \ texttt {styleddg} $が、スタイルの共有を使用しない分散型グラデーション方法と比較して、最小限の通信オーバーヘッドでターゲットドメイン全体で精度を大幅に改善できることを実証します。

要約(オリジナル)

Much of the federated learning (FL) literature focuses on settings where local dataset statistics remain the same between training and testing time. Recent advances in domain generalization (DG) aim to use data from source (training) domains to train a model that generalizes well to data from unseen target (testing) domains. In this paper, we are motivated by two major gaps in existing work on FL and DG: (1) the lack of formal mathematical analysis of DG objectives and training processes; and (2) DG research in FL being limited to the conventional star-topology architecture. Addressing the second gap, we develop $\textit{Decentralized Federated Domain Generalization with Style Sharing}$ ($\texttt{StyleDDG}$), a fully decentralized DG algorithm designed to allow devices in a peer-to-peer network to achieve DG based on sharing style information inferred from their datasets. Additionally, we fill the first gap by providing the first systematic approach to mathematically analyzing style-based DG training optimization. We cast existing centralized DG algorithms within our framework, and employ their formalisms to model $\texttt{StyleDDG}$. Based on this, we obtain analytical conditions under which a sub-linear convergence rate of $\texttt{StyleDDG}$ can be obtained. Through experiments on two popular DG datasets, we demonstrate that $\texttt{StyleDDG}$ can obtain significant improvements in accuracy across target domains with minimal added communication overhead compared to decentralized gradient methods that do not employ style sharing.

arxiv情報

著者 Shahryar Zehtabi,Dong-Jun Han,Seyyedali Hosseinalipour,Christopher G. Brinton
発行日 2025-04-08 17:32:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Decentralized Federated Domain Generalization with Style Sharing: A Formal Modeling and Convergence Analysis はコメントを受け付けていません

APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

要約

マルチターン相互作用のための効果的なAIエージェントのトレーニングには、現実的なヒューマンエージェントダイナミクスをキャプチャする高品質のデータが必要ですが、そのようなデータは手動で収集するのに少ない費用がかかります。
検証可能で多様なマルチターンエージェントデータを生成する2相フレームワークであるApigen-MTを紹介します。
第1フェーズでは、エージェントパイプラインは、LLMレビュアーの委員会と反復フィードバックループを活用して、グラウンドトゥルースアクションを備えた詳細なタスクの青写真を作成します。
これらの青写真は、シミュレートされたヒトエージェント相互作用により、完全な相互作用の軌跡に変換されます。
モデルのファミリーをトレーニングします – 1Bから70Bのパラメーターの範囲のサイズのXLAM-2-FC-Rシリーズ。
私たちのモデルは、$ \ tau $ -benchおよびBFCLベンチマークでGPT-4oやClaude 3.5などのフロンティアモデルを上回り、特に複数の試行で優れた一貫性を維持しながら、より大きなカウンターパートを超えて、より大きなカウンターパートを上回ります。
包括的な実験は、検証された青写真から控えめアプローチが高品質のトレーニングデータを生成し、より信頼性が高く、効率的で有能なエージェントの開発を可能にすることを示しています。
収集された合成データと、AIエージェントの研究を進めるために訓練されたXLAM-2-FC-Rモデルの両方をオープンソースで囲みます。
モデルは、https://huggingface.co/collections/salesforce/xlam-2-67EF5BE12949D8DCDAE354C4のハグFaceで入手できます。

要約(オリジナル)

Training effective AI agents for multi-turn interactions requires high-quality data that captures realistic human-agent dynamics, yet such data is scarce and expensive to collect manually. We introduce APIGen-MT, a two-phase framework that generates verifiable and diverse multi-turn agent data. In the first phase, our agentic pipeline produces detailed task blueprints with ground-truth actions, leveraging a committee of LLM reviewers and iterative feedback loops. These blueprints are then transformed into complete interaction trajectories through simulated human-agent interplay. We train a family of models — the xLAM-2-fc-r series with sizes ranging from 1B to 70B parameters. Our models outperform frontier models such as GPT-4o and Claude 3.5 on $\tau$-bench and BFCL benchmarks, with the smaller models surpassing their larger counterparts, particularly in multi-turn settings, while maintaining superior consistency across multiple trials. Comprehensive experiments demonstrate that our verified blueprint-to-details approach yields high-quality training data, enabling the development of more reliable, efficient, and capable agents. We open-source both the synthetic data collected and the trained xLAM-2-fc-r models to advance research in AI agents. Models are available on HuggingFace at https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 and project website is https://apigen-mt.github.io

arxiv情報

著者 Akshara Prabhakar,Zuxin Liu,Ming Zhu,Jianguo Zhang,Tulika Awalgaonkar,Shiyu Wang,Zhiwei Liu,Haolin Chen,Thai Hoang,Juan Carlos Niebles,Shelby Heinecke,Weiran Yao,Huan Wang,Silvio Savarese,Caiming Xiong
発行日 2025-04-08 17:46:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay はコメントを受け付けていません

FEABench: Evaluating Language Models on Multiphysics Reasoning Ability

要約

現実世界の正確なシミュレーションを構築し、定量的問題に答えるために数値ソルバーを呼び出すことは、工学と科学において重要な要件です。
Feabenchは、有限要素分析(FEA)を使用して物理学、数学、工学の問題をシミュレートおよび解決するための大規模な言語モデル(LLMS)およびLLMエージェントの能力を評価するベンチマークである。
自然言語の問題の説明を推論し、comsol Multiphysics $^\ circledR $(FEAソフトウェア)を操作して回答を計算することにより、LLMSがこれらの問題を解決する能力を調査する包括的な評価スキームを導入します。
さらに、アプリケーションプログラミングインターフェイス(API)を介してソフトウェアと対話する機能を備えた言語モデルエージェントを設計し、その出力を調べ、ツールを使用して複数の反復にわたってソリューションを改善します。
当社の最高のパフォーマンス戦略は、実行可能なAPIコールを88%の時間で生成します。
FEAソフトウェアと正常に対話して操作して、ベンチマークの問題を解決できるLLMは、エンジニアリングの自動化のフロンティアを押し進めるでしょう。
この機能を獲得すると、数値ソルバーの精度でLLMSの推論スキルを強化し、現実の世界で複雑な問題に取り組むことができる自律システムの開発を進めます。
コードはhttps://github.com/google/feabenchで入手できます

要約(オリジナル)

Building precise simulations of the real world and invoking numerical solvers to answer quantitative problems is an essential requirement in engineering and science. We present FEABench, a benchmark to evaluate the ability of large language models (LLMs) and LLM agents to simulate and solve physics, mathematics and engineering problems using finite element analysis (FEA). We introduce a comprehensive evaluation scheme to investigate the ability of LLMs to solve these problems end-to-end by reasoning over natural language problem descriptions and operating COMSOL Multiphysics$^\circledR$, an FEA software, to compute the answers. We additionally design a language model agent equipped with the ability to interact with the software through its Application Programming Interface (API), examine its outputs and use tools to improve its solutions over multiple iterations. Our best performing strategy generates executable API calls 88% of the time. LLMs that can successfully interact with and operate FEA software to solve problems such as those in our benchmark would push the frontiers of automation in engineering. Acquiring this capability would augment LLMs’ reasoning skills with the precision of numerical solvers and advance the development of autonomous systems that can tackle complex problems in the real world. The code is available at https://github.com/google/feabench

arxiv情報

著者 Nayantara Mudur,Hao Cui,Subhashini Venugopalan,Paul Raccuglia,Michael P. Brenner,Peter Norgaard
発行日 2025-04-08 17:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.NA, math.NA | FEABench: Evaluating Language Models on Multiphysics Reasoning Ability はコメントを受け付けていません

GOLLuM: Gaussian Process Optimized LLMs — Reframing LLM Finetuning through Bayesian Optimization

要約

大規模な言語モデル(LLM)は、潜在スペースで複雑な関係をエンコードできますが、不確実性の下で最適化のためにそれらを利用することは依然として困難です。
このギャップには、深いカーネル法を介してガウスプロセス(GP)の限界尤度最適化としてLLM Finetuningを再構築する新しいアーキテクチャで対処します。
GPSと共同で最適化されたLLMベースのディープカーネルを導入し、両方の利点を維持するために、ベイジアンの最適化のためのリッチで柔軟な入力スペースを提供し、GPSはより効率的なサンプリングのための予測不確実性でこの空間をモデル化します。
Buchwald-Hartwig反応の最適化に適用されるこの方法は、静的LLM埋め込みと比較して高性能反応の発見率をほぼ2倍にします(わずか50の最適化の繰り返しで上位5%の反応の24%から43%のカバレッジ)。
また、特殊な機能を必要とせずに、ドメイン固有の表現よりも14%の改善が見られます。
19のベンチマークにわたる広範な経験的評価 – 一般化学から反応および分子特性の最適化に至るまで – 私たちの方法の堅牢性、一般性、および一貫した改善を示しています:(1)タスク、(2)LLMアーキテクチャ(エンコーダー、デコーダー、エンコーダーデコード
(単一のデータセットで1回チューニング)。
最後に、これらの改善を説明します。周辺尤度による共同LLM-GP最適化は、対照的な学習を暗黙的に実行し、表現を調整して(1)より良い構造化された埋め込みスペース、(2)不確実性のキャリブレーションを改善し、(3)より効率的なサンプリング – 外部損失を必要とせずに。
この作業は、サンプル効率の高い最適化の実用的な進歩と、効果的なベイジアンの最適化を行うものに対する洞察の両方を提供します。

要約(オリジナル)

Large Language Models (LLMs) can encode complex relationships in their latent spaces, yet harnessing them for optimization under uncertainty remains challenging. We address this gap with a novel architecture that reframes LLM finetuning as Gaussian process (GP) marginal likelihood optimization via deep kernel methods. We introduce LLM-based deep kernels, jointly optimized with GPs to preserve the benefits of both – LLMs to provide a rich and flexible input space for Bayesian optimization and – GPs to model this space with predictive uncertainty for more efficient sampling. Applied to Buchwald-Hartwig reaction optimization, our method nearly doubles the discovery rate of high-performing reactions compared to static LLM embeddings (from 24% to 43% coverage of the top 5% reactions in just 50 optimization iterations). We also observe a 14% improvement over domain-specific representations without requiring specialized features. Extensive empirical evaluation across 19 benchmarks – ranging from general chemistry to reaction and molecular property optimization – demonstrates our method’s robustness, generality, and consistent improvements across: (1) tasks, (2) LLM architectures (encoder, decoder, encoder-decoder), (3) pretraining domains (chemistry-related or general-purpose) and (4) hyperparameter settings (tuned once on a single dataset). Finally, we explain these improvements: joint LLM-GP optimization through marginal likelihood implicitly performs contrastive learning, aligning representations to produce (1) better-structured embedding spaces, (2) improved uncertainty calibration, and (3) more efficient sampling – without requiring any external loss. This work provides both practical advances in sample-efficient optimization and insights into what makes effective Bayesian optimization.

arxiv情報

著者 Bojana Ranković,Philippe Schwaller
発行日 2025-04-08 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | GOLLuM: Gaussian Process Optimized LLMs — Reframing LLM Finetuning through Bayesian Optimization はコメントを受け付けていません