Scaling Laws of Scientific Discovery with AI and Robot Scientists

要約

科学的調査の急速な進化は、伝統的な研究の限界を超越する画期的な方法論の緊急の必要性を強調しています。
手動のプロセスとサイロ化された専門知識に悩まされている従来のアプローチは、現代の発見の要求に対応するのに苦労しています。
私たちは、自律的なジェネラリストの科学者(AGS)システム – 研究ライフサイクルを再定義するエージェントAIと具体化されたロボット工学の融合を想定しています。
このシステムは、物理的およびデジタルの領域を自律的にナビゲートし、異なる分野からの洞察を前例のない効率性と結びつけることを約束します。
高度なAIおよびロボットテクノロジーをあらゆる段階からの仮説からの定式化に埋め込むことにより、ピア対応の原稿に埋め込むと、多様な分野での科学研究に必要な時間とリソースを削減できます。
科学的発見が、そのようなシステムの拡散と洗練によって推進された新しいスケーリング法則に従う未来を予測しています。
これらの自律エージェントとロボットは、極端な環境に適応し、知識の貯水池の増加を活用して、パラダイムシフトを引き起こし、容赦ない革新の時代に可能なことの境界を押し広げ、先駆けとなる可能性があります。

要約(オリジナル)

The rapid evolution of scientific inquiry highlights an urgent need for groundbreaking methodologies that transcend the limitations of traditional research. Conventional approaches, bogged down by manual processes and siloed expertise, struggle to keep pace with the demands of modern discovery. We envision an autonomous generalist scientist (AGS) system-a fusion of agentic AI and embodied robotics-that redefines the research lifecycle. This system promises to autonomously navigate physical and digital realms, weaving together insights from disparate disciplines with unprecedented efficiency. By embedding advanced AI and robot technologies into every phase-from hypothesis formulation to peer-ready manuscripts-AGS could slash the time and resources needed for scientific research in diverse field. We foresee a future where scientific discovery follows new scaling laws, driven by the proliferation and sophistication of such systems. As these autonomous agents and robots adapt to extreme environments and leverage a growing reservoir of knowledge, they could spark a paradigm shift, pushing the boundaries of what’s possible and ushering in an era of relentless innovation.

arxiv情報

著者 Pengsong Zhang,Heng Zhang,Huazhe Xu,Renjun Xu,Zhenting Wang,Cong Wang,Animesh Garg,Zhibin Li,Arash Ajoudani,Xinyu Liu
発行日 2025-03-28 14:00:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO | Scaling Laws of Scientific Discovery with AI and Robot Scientists はコメントを受け付けていません

Leveraging ASIC AI Chips for Homomorphic Encryption

要約

クラウドベースのサービスは、機密性の高いクライアントデータのアウトソーシングをますます一般的にしています。
同音異常(HE)は強力なプライバシー保証を提供しますが、プレーンテキストでの計算よりもかなり多くのリソースが必要であり、多くの場合、結果を得るのに容認できないほど大きな潜在性につながります。
彼の加速器は、この潜伏期の問題を軽減するために現れましたが、ASICのコストが高くなりました。
この論文では、彼のプリミティブをAI演算子に変換し、既存のASIC AI加速器(すでにクラウドに広く展開されているTPU)に加速できることを示しています。
彼のためにこのような加速器を適応させるには、(1)モジュラー乗算、(2)ソフトウェアの高精度算術、および(3)マトリックスエンジンの効率的なマッピングをサポートする必要があります。
クロスコンパイラ(1)を導入してバレット削減を採用して、乗数とアダーを使用したモジュール削減サポートを提供します。
エンジン。
Google TPUV4でのCrossの評価は、多くのコアCPUおよびV100の以前の研究と比較して、最大161倍および5倍のスピードアップで、大幅なパフォーマンスの改善を示しています。
カーネルレベルのコードは、https://github.com/google/jaxite/tree/main/jaxite_wordでオープンソースを販売しています。

要約(オリジナル)

Cloud-based services are making the outsourcing of sensitive client data increasingly common. Although homomorphic encryption (HE) offers strong privacy guarantee, it requires substantially more resources than computing on plaintext, often leading to unacceptably large latencies in getting the results. HE accelerators have emerged to mitigate this latency issue, but with the high cost of ASICs. In this paper we show that HE primitives can be converted to AI operators and accelerated on existing ASIC AI accelerators, like TPUs, which are already widely deployed in the cloud. Adapting such accelerators for HE requires (1) supporting modular multiplication, (2) high-precision arithmetic in software, and (3) efficient mapping on matrix engines. We introduce the CROSS compiler (1) to adopt Barrett reduction to provide modular reduction support using multiplier and adder, (2) Basis Aligned Transformation (BAT) to convert high-precision multiplication as low-precision matrix-vector multiplication, (3) Matrix Aligned Transformation (MAT) to covert vectorized modular operation with reduction into matrix multiplication that can be efficiently processed on 2D spatial matrix engine. Our evaluation of CROSS on a Google TPUv4 demonstrates significant performance improvements, with up to 161x and 5x speedup compared to the previous work on many-core CPUs and V100. The kernel-level codes are open-sourced at https://github.com/google/jaxite/tree/main/jaxite_word.

arxiv情報

著者 Jianming Tong,Tianhao Huang,Leo de Castro,Anirudh Itagi,Jingtian Dang,Anupam Golder,Asra Ali,Jevin Jiang,Arvind,G. Edward Suh,Tushar Krishna
発行日 2025-03-28 14:24:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.CL, cs.CR, cs.PL | Leveraging ASIC AI Chips for Homomorphic Encryption はコメントを受け付けていません

WorkTeam: Constructing Workflows from Natural Language with Multi-Agents

要約

ワークフローは、複数のツールまたはコンポーネントを使用して複雑なプロセスを調整することにより、企業効率を高める上で重要な役割を果たします。
ただし、手作りのワークフロー構築には専門知識が必要であり、重要な技術的障壁を提示します。
大規模な言語モデル(LLMS)の最近の進歩により、自然言語の指示(別名NL2WorkFlow)からのワークフローの生成が改善されましたが、既存の単一LLMエージェントベースの方法は、専門知識とタスク投票の株の必要性のために複雑なタスクのパフォーマンスの低下に直面しています。
これらの課題に取り組むために、スーパーバイザー、オーケストレーター、およびフィラーエージェントを含むマルチエージェントNL2WorkFlowフレームワークであるWorkTeamを提案します。
現在、公開されているNL2WorkFlowベンチマークはないため、トレーニングと評価のための3,695の実際のビジネスサンプルを含むHW-NL2WorkFlowデータセットも紹介します。
実験結果は、このアプローチがワークフロー構築の成功率を大幅に増加させ、エンタープライズNL2WorkFlowサービスに斬新で効果的なソリューションを提供することを示しています。

要約(オリジナル)

Workflows play a crucial role in enhancing enterprise efficiency by orchestrating complex processes with multiple tools or components. However, hand-crafted workflow construction requires expert knowledge, presenting significant technical barriers. Recent advancements in Large Language Models (LLMs) have improved the generation of workflows from natural language instructions (aka NL2Workflow), yet existing single LLM agent-based methods face performance degradation on complex tasks due to the need for specialized knowledge and the strain of task-switching. To tackle these challenges, we propose WorkTeam, a multi-agent NL2Workflow framework comprising a supervisor, orchestrator, and filler agent, each with distinct roles that collaboratively enhance the conversion process. As there are currently no publicly available NL2Workflow benchmarks, we also introduce the HW-NL2Workflow dataset, which includes 3,695 real-world business samples for training and evaluation. Experimental results show that our approach significantly increases the success rate of workflow construction, providing a novel and effective solution for enterprise NL2Workflow services.

arxiv情報

著者 Hanchao Liu,Rongjun Li,Weimin Xiong,Ziyu Zhou,Wei Peng
発行日 2025-03-28 14:33:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | WorkTeam: Constructing Workflows from Natural Language with Multi-Agents はコメントを受け付けていません

Function Alignment: A New Theory of Mind and Intelligence, Part I: Foundations

要約

このペーパーでは、関数アラインメントを紹介します。これは、直感的に説得力があり、構造的に接地された、心と知性の新しい理論です。
それは、階層化された表現間の相互作用から意味、解釈、類推がどのように出現するかを明示的にモデル化し、マインドをモデリングするだけでなく、それらを構築するための青写真としても役立つ一貫したフレームワークを形成します。
関数のアライメントから導き出された重要な理論的洞察の1つは、境界のある解釈可能性であり、これは、境界の合理性、シンボル接地、類推などの認知科学における以前に断片化されたアイデアの統一された説明を提供します。
モデリングを超えて、関数アラインメントフレームワークは、しばしば分解され、計算アーキテクチャ、心理理論、さらにはZenなどの瞑想的な伝統をリンクし、分野を橋渡しします。
哲学的システムに基づいているのではなく、心を理解する複数の方法が再構築される可能性のある構造的基盤を提供します。

要約(オリジナル)

This paper introduces function alignment, a novel theory of mind and intelligence that is both intuitively compelling and structurally grounded. It explicitly models how meaning, interpretation, and analogy emerge from interactions among layered representations, forming a coherent framework capable not only of modeling minds but also of serving as a blueprint for building them. One of the key theoretical insights derived from function alignment is bounded interpretability, which provides a unified explanation for previously fragmented ideas in cognitive science, such as bounded rationality, symbol grounding, and analogy-making. Beyond modeling, the function alignment framework bridges disciplines often kept apart, linking computational architecture, psychological theory, and even contemplative traditions such as Zen. Rather than building on any philosophical systems, it offers a structural foundation upon which multiple ways of understanding the mind may be reconstructed.

arxiv情報

著者 Gus G. Xia
発行日 2025-03-28 14:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T27, 91E45, cs.CL, F.4.1 | Function Alignment: A New Theory of Mind and Intelligence, Part I: Foundations はコメントを受け付けていません

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

要約

大規模な言語モデル(LLMS)は、数学、物理学、コンピューターサイエンスなどの主流の学術分野において顕著な習熟度を示しています。
ただし、人間の知識には、既存のベンチマークの範囲をはるかに超える200を超える専門分野が含まれます。
これらの専門分野の多くにおけるLLMの能力は、特に産業、農業、およびサービス指向の分野において、不十分に評価されています。
このギャップに対処するために、285の分野で大学院レベルの知識と推論能力を評価する包括的なベンチマークであるSuperGPQAを提示します。
当社のベンチマークは、LLM応答と専門家のフィードバックの両方に基づいた反復改良により、些細なまたは曖昧な質問を排除するために、新しいヒューマンLLM共同溶融フィルタリングメカニズムを採用しています。
私たちの実験結果は、多様な知識ドメイン全体で現在の最先端のLLMのパフォーマンスを改善するための重要な余地を明らかにしています(たとえば、推論に焦点を当てたモデルDeepSeek-R1は、SuperGPQAで61.82%の最高精度を達成し、現在のモデル能力と人工的な一般情報の間のかなりのギャップを強調しました。
さらに、80を超える専門家アノテーターとインタラクティブな人間の共同体系を含む大規模な注釈プロセスの管理から包括的な洞察を提示し、同等の範囲の将来の研究イニシアチブのための貴重な方法論的ガイダンスを提供します。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable proficiency in mainstream academic disciplines such as mathematics, physics, and computer science. However, human knowledge encompasses over 200 specialized disciplines, far exceeding the scope of existing benchmarks. The capabilities of LLMs in many of these specialized fields-particularly in light industry, agriculture, and service-oriented disciplines-remain inadequately evaluated. To address this gap, we present SuperGPQA, a comprehensive benchmark that evaluates graduate-level knowledge and reasoning capabilities across 285 disciplines. Our benchmark employs a novel Human-LLM collaborative filtering mechanism to eliminate trivial or ambiguous questions through iterative refinement based on both LLM responses and expert feedback. Our experimental results reveal significant room for improvement in the performance of current state-of-the-art LLMs across diverse knowledge domains (e.g., the reasoning-focused model DeepSeek-R1 achieved the highest accuracy of 61.82% on SuperGPQA), highlighting the considerable gap between current model capabilities and artificial general intelligence. Additionally, we present comprehensive insights from our management of a large-scale annotation process, involving over 80 expert annotators and an interactive Human-LLM collaborative system, offering valuable methodological guidance for future research initiatives of comparable scope.

arxiv情報

著者 M-A-P Team,Xinrun Du,Yifan Yao,Kaijing Ma,Bingli Wang,Tianyu Zheng,King Zhu,Minghao Liu,Yiming Liang,Xiaolong Jin,Zhenlin Wei,Chujie Zheng,Kaixin Deng,Shawn Gavin,Shian Jia,Sichao Jiang,Yiyan Liao,Rui Li,Qinrui Li,Sirun Li,Yizhi Li,Yunwen Li,David Ma,Yuansheng Ni,Haoran Que,Qiyao Wang,Zhoufutu Wen,Siwei Wu,Tyshawn Hsing,Ming Xu,Zhenzhu Yang,Zekun Moore Wang,Junting Zhou,Yuelin Bai,Xingyuan Bu,Chenglin Cai,Liang Chen,Yifan Chen,Chengtuo Cheng,Tianhao Cheng,Keyi Ding,Siming Huang,Yun Huang,Yaoru Li,Yizhe Li,Zhaoqun Li,Tianhao Liang,Chengdong Lin,Hongquan Lin,Yinghao Ma,Tianyang Pang,Zhongyuan Peng,Zifan Peng,Qige Qi,Shi Qiu,Xingwei Qu,Shanghaoran Quan,Yizhou Tan,Zili Wang,Chenqing Wang,Hao Wang,Yiya Wang,Yubo Wang,Jiajun Xu,Kexin Yang,Ruibin Yuan,Yuanhao Yue,Tianyang Zhan,Chun Zhang,Jinyang Zhang,Xiyue Zhang,Xingjian Zhang,Yue Zhang,Yongchi Zhao,Xiangyu Zheng,Chenghua Zhong,Yang Gao,Zhoujun Li,Dayiheng Liu,Qian Liu,Tianyu Liu,Shiwen Ni,Junran Peng,Yujia Qin,Wenbo Su,Guoyin Wang,Shi Wang,Jian Yang,Min Yang,Meng Cao,Xiang Yue,Zhaoxiang Zhang,Wangchunshu Zhou,Jiaheng Liu,Qunshu Lin,Wenhao Huang,Ge Zhang
発行日 2025-03-28 15:21:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines はコメントを受け付けていません

Bridging the Dimensional Chasm: Uncover Layer-wise Dimensional Reduction in Transformers through Token Correlation

要約

大規模な言語モデル(LLMS)のトークン表現の幾何学的進化は基本的なパラドックスを提示します。人間の言語は本質的に低次元空間($ \ sim 10^1 $寸法)でセマンティック情報を整理し、現代のLLMは高次元の埋め込み($ \ sim 10^3 $寸法)を使用します。
このパラドックスを解決するために、この作業は、変圧器層全体のトークンダイナミクスを追跡する幾何学的フレームワークを開発することにより、この概念的なギャップを橋渡しします。
複数のアーキテクチャにわたる本質的な寸法のレイヤーごとの分析により、トークンが「作業空間」に拡散し、次第に低次元サブマニホールドに投影する拡張制御パターンを明らかにします。
私たちの発見は、LLMSの作業空間ディメンションとパラメーターに敏感なパフォーマンスとの間の負の相関を意味し、効果的なモデルがトークンを約10次元サブマニホールドに圧縮する傾向があり、人間のセマンティックスペースに非常に似ていることを示しています。
この作業は、高次元の計算と低次元のセマンティクスを媒介するプロジェクターとして変圧器層を再構成することにより、LLMの解釈性を向上させるだけでなく、タスク固有の評価に依存しないモデル診断の実用的なツールも提供します。

要約(オリジナル)

The geometric evolution of token representations in large language models (LLMs) presents a fundamental paradox: while human language inherently organizes semantic information in low-dimensional spaces ($\sim 10^1$ dimensions), modern LLMs employ high-dimensional embeddings ($\sim 10^3$ dimensions) processed through Transformer architectures. To resolve this paradox, this work bridges this conceptual gap by developing a geometric framework that tracks token dynamics across Transformers layers. Through layer-wise analysis of intrinsic dimensions across multiple architectures, we reveal an expansion-contraction pattern where tokens diffuse to a ‘working space’ and then progressively project onto lower-dimensional submanifolds. Our finding implies a negative correlation between the working space dimension and parameter-sensitive performance of the LLMs, and indicates that effective models tend to compress tokens into approximately 10-dimensional submanifolds, closely resembling human semantic spaces. This work not only advances LLM interpretability by reframing Transformers layers as projectors that mediate between high-dimensional computation and low-dimensional semantics, but also provides practical tools for model diagnostics that do not rely on task-specific evaluations.

arxiv情報

著者 Zhuo-Yang Song,Zeyu Li,Qing-Hong Cao,Ming-xing Luo,Hua Xing Zhu
発行日 2025-03-28 15:47:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Bridging the Dimensional Chasm: Uncover Layer-wise Dimensional Reduction in Transformers through Token Correlation はコメントを受け付けていません

Beyond Vanilla Fine-Tuning: Leveraging Multistage, Multilingual, and Domain-Specific Methods for Low-Resource Machine Translation

要約

微調整多言語シーケンスからシーケンス大型言語モデル(MSLLMS)は、低リソース言語(LRL)の神経機械翻訳(NMT)システムの開発において有望を示しています。
ただし、従来のシングルステージの微調整方法は、トレーニングデータが非常に限られている非常に低リソースのNMT設定で苦労しています。
このペーパーは、これらの挑戦的なシナリオでMSLLMを適応させるための2つのアプローチを提案することにより、人工知能に貢献します:(1)継続的なトレーニング(CPT)。MSLLMは、LRLの過小評価を補うためにドメイン固有の単一言語データでさらに訓練されています。
ドメイン外の並列データは、さまざまなドメインとタスクにわたる翻訳機能を強化します。
エンジニアリングのアプリケーションとして、これらの方法は、ドメイン固有の非常に低リソース設定(100,000未満のサンプルを含むデータセット)で、シンハラ、タミル語、および英語(6つの言語ペア)のNMTシステムに実装されています。
私たちの実験では、これらのアプローチが、すべての翻訳方向にわたる標準の単一段階の微調整ベースラインと比較して、平均+1.47バイリンガル評価アンテナ(BLE)スコアによって翻訳性能を高めることが明らかになりました。
さらに、マルチモデルアンサンブルは、追加のBLEUスコアによってパフォーマンスをさらに向上させます。

要約(オリジナル)

Fine-tuning multilingual sequence-to-sequence large language models (msLLMs) has shown promise in developing neural machine translation (NMT) systems for low-resource languages (LRLs). However, conventional single-stage fine-tuning methods struggle in extremely low-resource NMT settings, where training data is very limited. This paper contributes to artificial intelligence by proposing two approaches for adapting msLLMs in these challenging scenarios: (1) continual pre-training (CPT), where the msLLM is further trained with domain-specific monolingual data to compensate for the under-representation of LRLs, and (2) intermediate task transfer learning (ITTL), a method that fine-tunes the msLLM with both in-domain and out-of-domain parallel data to enhance its translation capabilities across various domains and tasks. As an application in engineering, these methods are implemented in NMT systems for Sinhala, Tamil, and English (six language pairs) in domain-specific, extremely low-resource settings (datasets containing fewer than 100,000 samples). Our experiments reveal that these approaches enhance translation performance by an average of +1.47 bilingual evaluation understudy (BLEU) score compared to the standard single-stage fine-tuning baseline across all translation directions. Additionally, a multi-model ensemble further improves performance by an additional BLEU score.

arxiv情報

著者 Sarubi Thillainathan,Songchen Yuan,En-Shiun Annie Lee,Sanath Jayasena,Surangika Ranathunga
発行日 2025-03-28 16:30:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond Vanilla Fine-Tuning: Leveraging Multistage, Multilingual, and Domain-Specific Methods for Low-Resource Machine Translation はコメントを受け付けていません

Self-Evolving Multi-Agent Simulations for Realistic Clinical Interactions

要約

この作業では、動的診断設定でLLMパフォーマンスを評価および強化するために設計された医師、患者、および測定剤を対象としたオープンソースシミュレーション臨床環境であるMedagentsimを紹介します。
以前のアプローチとは異なり、当社のフレームワークでは、医師がマルチターン会話を通じて患者と積極的に関与する必要があり、関連する健康診断(温度、血圧、ECG)およびイメージング結果(例:MRI、X線)を測定剤から要求して、実際の診断プロセスを模倣します。
さらに、モデルが診断戦略を繰り返し改善できるようにする自己改善メカニズムを組み込みます。
マルチエージェントの議論、考え方の推論、および経験ベースの知識の検索を統合することにより、シミュレートされた設定でLLMパフォーマンスを向上させ、医師のエージェントがより多くの患者と相互作用するにつれて進歩的な学習を促進します。
また、動的でコンテキストを意識した診断相互作用に従事するLLMの能力を評価するための評価ベンチマークを紹介します。
Medagentimは完全に自動化されていますが、ユーザー制御モードもサポートし、医師または患者のエージェントとの人間の相互作用を可能にします。
さまざまなシミュレートされた診断シナリオの包括的な評価は、私たちのアプローチの有効性を示しています。
コード、シミュレーションツール、およびベンチマークは、\ href {https://medagentim.netlify.app/}で入手できます。

要約(オリジナル)

In this work, we introduce MedAgentSim, an open-source simulated clinical environment with doctor, patient, and measurement agents designed to evaluate and enhance LLM performance in dynamic diagnostic settings. Unlike prior approaches, our framework requires doctor agents to actively engage with patients through multi-turn conversations, requesting relevant medical examinations (e.g., temperature, blood pressure, ECG) and imaging results (e.g., MRI, X-ray) from a measurement agent to mimic the real-world diagnostic process. Additionally, we incorporate self improvement mechanisms that allow models to iteratively refine their diagnostic strategies. We enhance LLM performance in our simulated setting by integrating multi-agent discussions, chain-of-thought reasoning, and experience-based knowledge retrieval, facilitating progressive learning as doctor agents interact with more patients. We also introduce an evaluation benchmark for assessing the LLM’s ability to engage in dynamic, context-aware diagnostic interactions. While MedAgentSim is fully automated, it also supports a user-controlled mode, enabling human interaction with either the doctor or patient agent. Comprehensive evaluations in various simulated diagnostic scenarios demonstrate the effectiveness of our approach. Our code, simulation tool, and benchmark are available at \href{https://medagentsim.netlify.app/}.

arxiv情報

著者 Mohammad Almansoori,Komal Kumar,Hisham Cholakkal
発行日 2025-03-28 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Self-Evolving Multi-Agent Simulations for Realistic Clinical Interactions はコメントを受け付けていません

On-site estimation of battery electrochemical parameters via transfer learning based physics-informed neural network approach

要約

このペーパーでは、物理学に基づいたニューラルネットワーク(PINN)と転送学習(TL)を使用した2相モデリング戦略を使用して、オンサイトモデルの特性評価のための新しい物理的パラメーター推定フレームワークを紹介します。
第1フェーズでは、PINNは、単一粒子モデル(SPM)方程式の物理的原理のみを使用してトレーニングされます。
第2フェーズでは、PINNパラメーターの大部分が凍結され、重要な電気化学パラメーターはトレーニング可能として設定され、実際の電圧プロファイルデータを使用して調整されます。
提案されたアプローチは計算コストを大幅に削減し、バッテリー管理システム(BMS)でのリアルタイムの実装に適しています。
さらに、初期フェーズではフィールドデータが必要ないため、モデルは最小限のセットアップ要件で簡単に展開できます。
提案された方法論により、操作データを使用して関連する電気化学パラメーターを効果的に推定することができました。
これは、異なる分解条件で電荷データを持つ拡散性と活性材料体積分画を推定することが証明されています。
方法論は、3.89 \%の相対精度を持つ標準電荷プロファイルのデータを使用して、その名目容量の82.09 \%を持つNMCセルの有効材料体積分率を推定するRaspberry PIデバイスで実験的に検証されます。

要約(オリジナル)

This paper presents a novel physical parameter estimation framework for on-site model characterization, using a two-phase modelling strategy with Physics-Informed Neural Networks (PINNs) and transfer learning (TL). In the first phase, a PINN is trained using only the physical principles of the single particle model (SPM) equations. In the second phase, the majority of the PINN parameters are frozen, while critical electrochemical parameters are set as trainable and adjusted using real-world voltage profile data. The proposed approach significantly reduces computational costs, making it suitable for real-time implementation on Battery Management Systems (BMS). Additionally, as the initial phase does not require field data, the model is easy to deploy with minimal setup requirements. With the proposed methodology, we have been able to effectively estimate relevant electrochemical parameters with operating data. This has been proved estimating diffusivities and active material volume fractions with charge data in different degradation conditions. The methodology is experimentally validated in a Raspberry Pi device using data from a standard charge profile with a 3.89\% relative accuracy estimating the active material volume fractions of a NMC cell with 82.09\% of its nominal capacity.

arxiv情報

著者 Josu Yeregui,Iker Lopetegi,Sergio Fernandez,Erik Garayalde,Unai Iraola
発行日 2025-03-28 13:06:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | On-site estimation of battery electrochemical parameters via transfer learning based physics-informed neural network approach はコメントを受け付けていません

EllieSQL: Cost-Efficient Text-to-SQL with Complexity-Aware Routing

要約

Text-to-SQLは、自然な言語クエリをSQLに自動的に変換し、非技術的なユーザーが特殊なSQL知識なしにデータベースからデータを取得できるようにします。
リーダーボードでの高度なLLMベースのテキストからSQLへのアプローチの成功にもかかわらず、現在のリーダーボード主導の研究では、持続不可能な計算コスト(しばしば見過ごされがちな)が「部屋の象」となり、現実世界の展開と広範な採用のための経済的実用性を制限しています。
これに取り組むために、推定された複雑さに基づいて適切なSQL生成パイプラインにクエリを割り当てる複雑さを意識したルーティングフレームワークであるElliesQlを探索的に提案します。
複数のルーターを調査して、簡単なクエリを効率的なアプローチに向け、複雑なケースの計算集約的な方法を予約します。
経済学から描画すると、パフォーマンスのトークン弾力性(TEP)メトリックを導入し、SQL生成へのトークン投資と比較してパフォーマンスゲインの応答性を定量化することにより、費用効率をキャプチャします。
実験では、我々の研究で常に最も高度な方法を使用するのと比較して、QWEN2.5-0.5B-DPOルーターを使用したElliesQlは、鳥の発達セットでパフォーマンスを侵害することなくトークンの使用を40%以上削減し、非ルーティングアプローチよりもTEPで2倍以上のブーストを達成することが示されています。
これは、費用効率の高いテキストからSQLの追求を進めるだけでなく、パフォーマンスとともにリソース効率の重量を量るようにコミュニティを招待し、持続可能なテキストからSQLの進歩に貢献します。

要約(オリジナル)

Text-to-SQL automatically translates natural language queries to SQL, allowing non-technical users to retrieve data from databases without specialized SQL knowledge. Despite the success of advanced LLM-based Text-to-SQL approaches on leaderboards, their unsustainable computational costs–often overlooked–stand as the ‘elephant in the room’ in current leaderboard-driven research, limiting their economic practicability for real-world deployment and widespread adoption. To tackle this, we exploratively propose EllieSQL, a complexity-aware routing framework that assigns queries to suitable SQL generation pipelines based on estimated complexity. We investigate multiple routers to direct simple queries to efficient approaches while reserving computationally intensive methods for complex cases. Drawing from economics, we introduce the Token Elasticity of Performance (TEP) metric, capturing cost-efficiency by quantifying the responsiveness of performance gains relative to token investment in SQL generation. Experiments show that compared to always using the most advanced methods in our study, EllieSQL with the Qwen2.5-0.5B-DPO router reduces token use by over 40% without compromising performance on Bird development set, achieving more than a 2x boost in TEP over non-routing approaches. This not only advances the pursuit of cost-efficient Text-to-SQL but also invites the community to weigh resource efficiency alongside performance, contributing to progress in sustainable Text-to-SQL.

arxiv情報

著者 Yizhang Zhu,Runzhi Jiang,Boyan Li,Nan Tang,Yuyu Luo
発行日 2025-03-28 13:11:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB | EllieSQL: Cost-Efficient Text-to-SQL with Complexity-Aware Routing はコメントを受け付けていません