How Effective are Generative Large Language Models in Performing Requirements Classification?

要約

近年、トランスベースの大手言語モデル(LLMS)が自然言語処理(NLP)に革命をもたらし、生成モデルがコンテキスト認識テキスト生成を必要とするタスクの新しい可能性を開きます。
要件エンジニアリング(RE)では、Trace-Linkの検出、調節コンプライアンスなど、さまざまなタスクのLLMSの実験が急増しています。
要件分類は、REの一般的なタスクです。
Bertのような非生成LLMはこのタスクに正常に適用されていますが、生成LLMの調査は限られています。
このギャップは重要な疑問を提起します。コンテキストを認識した出力を生成する生成LLMは、要件分類で実行できますか?
この研究では、バイナリとマルチクラスの両方の要件分類を実行する3つの生成LLMS-Bloom、Gemma、およびLlama-inの有効性を調査します。
広く使用されている3つのデータセット(Promise NFR、機能品質、およびSecreq)にわたる400を超える実験を含む広範な実験研究を設計します。
私たちの研究では、迅速な設計やLLMアーキテクチャなどの要因は普遍的に重要であるが、データセットのバリエーションは分類タスクの複雑さに応じて、より状況の影響を与えるなど、他の要因であると結論付けています。
この洞察は、将来のモデル開発と展開戦略を導き、迅速な構造の最適化と、パフォーマンスを改善するためのタスク固有のニーズを備えたモデルアーキテクチャを調整することに焦点を当てることができます。

要約(オリジナル)

In recent years, transformer-based large language models (LLMs) have revolutionised natural language processing (NLP), with generative models opening new possibilities for tasks that require context-aware text generation. Requirements engineering (RE) has also seen a surge in the experimentation of LLMs for different tasks, including trace-link detection, regulatory compliance, and others. Requirements classification is a common task in RE. While non-generative LLMs like BERT have been successfully applied to this task, there has been limited exploration of generative LLMs. This gap raises an important question: how well can generative LLMs, which produce context-aware outputs, perform in requirements classification? In this study, we explore the effectiveness of three generative LLMs-Bloom, Gemma, and Llama-in performing both binary and multi-class requirements classification. We design an extensive experimental study involving over 400 experiments across three widely used datasets (PROMISE NFR, Functional-Quality, and SecReq). Our study concludes that while factors like prompt design and LLM architecture are universally important, others-such as dataset variations-have a more situational impact, depending on the complexity of the classification task. This insight can guide future model development and deployment strategies, focusing on optimising prompt structures and aligning model architectures with task-specific needs for improved performance.

arxiv情報

著者 Waad Alhoshan,Alessio Ferrari,Liping Zhao
発行日 2025-04-23 14:41:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | How Effective are Generative Large Language Models in Performing Requirements Classification? はコメントを受け付けていません

Evaluation Framework for AI Systems in ‘the Wild’

要約

生成AI(genai)モデルは業界全体で重要になりましたが、現在の評価方法はそれらの広範な使用に適応していません。
従来の評価は、多くの場合、ベンチマークや固定データセットに依存しており、実際のパフォーマンスを反映していないことが多く、ラボでテストされた結果と実用的なアプリケーションとの間にギャップが生じます。
このホワイトペーパーでは、現実世界のGenaiシステムをどのように評価すべきかについての包括的なフレームワークを提案し、多様で進化する入力と総合的、動的、継続的な評価アプローチを強調しています。
このペーパーでは、リアルタイムの機能を正確に反映する評価方法を設計する方法についての実務家にガイダンスを提供し、固定されたパフォーマンス数やパラメーターサイズではなく、社会的影響に焦点を当てたGenaiポリシーを作成するための推奨事項を政策立案者に提供します。
私たちは、パフォーマンス、公平性、倫理を統合し、人間と自動化の評価を組み合わせた継続的な結果指向の方法の使用を統合しながら、利害関係者間の信頼を促進するために透明性を持つ全体的な枠組みを提唱しています。
これらの戦略を実装することで、Genaiモデルは技術的に熟練しているだけでなく、倫理的に責任があり、影響力があります。

要約(オリジナル)

Generative AI (GenAI) models have become vital across industries, yet current evaluation methods have not adapted to their widespread use. Traditional evaluations often rely on benchmarks and fixed datasets, frequently failing to reflect real-world performance, which creates a gap between lab-tested outcomes and practical applications. This white paper proposes a comprehensive framework for how we should evaluate real-world GenAI systems, emphasizing diverse, evolving inputs and holistic, dynamic, and ongoing assessment approaches. The paper offers guidance for practitioners on how to design evaluation methods that accurately reflect real-time capabilities, and provides policymakers with recommendations for crafting GenAI policies focused on societal impacts, rather than fixed performance numbers or parameter sizes. We advocate for holistic frameworks that integrate performance, fairness, and ethics and the use of continuous, outcome-oriented methods that combine human and automated assessments while also being transparent to foster trust among stakeholders. Implementing these strategies ensures GenAI models are not only technically proficient but also ethically responsible and impactful.

arxiv情報

著者 Sarah Jabbour,Trenton Chang,Anindya Das Antar,Joseph Peper,Insu Jang,Jiachen Liu,Jae-Won Chung,Shiqi He,Michael Wellman,Bryan Goodman,Elizabeth Bondi-Kelly,Kevin Samy,Rada Mihalcea,Mosharaf Chowhury,David Jurgens,Lu Wang
発行日 2025-04-23 14:52:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | Evaluation Framework for AI Systems in ‘the Wild’ はコメントを受け付けていません

Credible plan-driven RAG method for Multi-hop Question Answering

要約

マルチホップ質問応答(QA)は、検索された生成(RAG)にかなりの課題を提示し、複雑なクエリの構造化された分解が論理的推論パスへの分解と信頼できる中間結果の生成を必要とします。
ただし、現在のRAGメソッドでよく見られる中間結果の推論パスまたはエラーの逸脱は、推論プロセス全体で伝播して蓄積し、複雑なクエリに対する答えの精度を低下させる可能性があります。
この課題に対処するために、計画、行動、およびレビューの3つの重要な段階に編成された計画 – アクトとレビュー(PAR RAG)フレームワークを提案し、解釈可能で漸進的な推論パラダイムを提供することを目的としています。
全体的な観点からのステップ。
このアプローチは、従来のRAGメソッドで一般的なローカルオプティマの落とし穴を回避し、推論パス全体の正確性を確保します。
その後、PAR RAGには、多粒度検証に基づいた計画実行メカニズムが組み込まれています。
粗粒の類似性情報と細粒の関連データの両方を利用することにより、フレームワークは中間結果を徹底的にチェックおよび調整し、エラーの伝播と増幅を効果的に管理しながらプロセスの精度を確保します。
マルチホップQAデータセットの実験結果は、PAR RAGフレームワークがEMやF1スコアを含む主要なメトリックの既存の最先端の方法を大幅に上回ることを示しています。

要約(オリジナル)

Multi-hop question answering (QA) presents a considerable challenge for Retrieval-Augmented Generation (RAG), requiring the structured decomposition of complex queries into logical reasoning paths and the generation of dependable intermediate results. However, deviations in reasoning paths or errors in intermediate results, which are common in current RAG methods, may propagate and accumulate throughout the reasoning process, diminishing the accuracy of the answer to complex queries. To address this challenge, we propose the Plan-then-Act-and-Review (PAR RAG) framework, which is organized into three key stages: planning, act, and review, and aims to offer an interpretable and incremental reasoning paradigm for accurate and reliable multi-hop question answering by mitigating error propagation.PAR RAG initially applies a top-down problem decomposition strategy, formulating a comprehensive plan that integrates multiple executable steps from a holistic viewpoint. This approach avoids the pitfalls of local optima common in traditional RAG methods, ensuring the accuracy of the entire reasoning path. Subsequently, PAR RAG incorporates a plan execution mechanism based on multi-granularity verification. By utilizing both coarse-grained similarity information and fine-grained relevant data, the framework thoroughly checks and adjusts intermediate results, ensuring process accuracy while effectively managing error propagation and amplification. Experimental results on multi-hop QA datasets demonstrate that the PAR RAG framework substantially outperforms existing state-of-the-art methods in key metrics, including EM and F1 scores.

arxiv情報

著者 Ningning Zhang,Chi Zhang,Zhizhong Tan,Xingxing Yang,Weiping Deng,Wenyong Wang
発行日 2025-04-23 15:03:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.0 | Credible plan-driven RAG method for Multi-hop Question Answering はコメントを受け付けていません

Radiometer Calibration using Machine Learning

要約

放射計は電波天文学の重要な機器であり、ほぼすべての無線望遠鏡の主要な要素を形成しています。
これらは、電磁放射の強度を測定し、この放射を電気信号に変換します。
放射計の主要なコンポーネントは、アンテナと低ノイズアンプ(LNA)です。これは、「レシーバー」チェーンの中核です。
受信機によって導入された機器効果は、通常、キャリブレーション中に修正または削除されます。
ただし、アンテナと受信機の間のインピーダンスの不一致は、不要な信号反射と歪みを導入できます。
Dicke Switchingなどの従来のキャリブレーション方法は、アンテナとよく特徴付けられた参照ソースの間の受信機入力を、比較することでエラーを軽減するために交互に交互に行います。
機械学習(ML)の最近の進歩は、有望な選択肢を提供します。
既知の信号ソースを使用して訓練されたニューラルネットワークは、従来の分析アプローチが闘っている複雑なシステムをモデル化および校正するための強力な手段を提供します。
これらの方法は、高赤方偏移で原子水素からのかすかな空平均21 cm信号を検出するために特に関連しています。
これは、今日の観察宇宙論の主な課題の1つです。
ここでは、初めて、21 cmのラインを検出することを目的とした放射線実験に必要な精度を実現できる機械学習ベースのキャリブレーションフレームワークを導入してテストします。

要約(オリジナル)

Radiometers are crucial instruments in radio astronomy, forming the primary component of nearly all radio telescopes. They measure the intensity of electromagnetic radiation, converting this radiation into electrical signals. A radiometer’s primary components are an antenna and a Low Noise Amplifier (LNA), which is the core of the “receiver” chain. Instrumental effects introduced by the receiver are typically corrected or removed during calibration. However, impedance mismatches between the antenna and receiver can introduce unwanted signal reflections and distortions. Traditional calibration methods, such as Dicke switching, alternate the receiver input between the antenna and a well-characterised reference source to mitigate errors by comparison. Recent advances in Machine Learning (ML) offer promising alternatives. Neural networks, which are trained using known signal sources, provide a powerful means to model and calibrate complex systems where traditional analytical approaches struggle. These methods are especially relevant for detecting the faint sky-averaged 21-cm signal from atomic hydrogen at high redshifts. This is one of the main challenges in observational Cosmology today. Here, for the first time, we introduce and test a machine learning-based calibration framework capable of achieving the precision required for radiometric experiments aiming to detect the 21-cm line.

arxiv情報

著者 S. A. K. Leeney,H. T. J. Bevins,E. de Lera Acedo,W. J. Handley,C. Kirkham,R. S. Patel,J. Zhu,D. Molnar,J. Cumner,D. Anstey,K. Artuc,G. Bernardi,M. Bucher,S. Carey,J. Cavillot,R. Chiello,W. Croukamp,D. I. L. de Villiers,J. A. Ely,A. Fialkov,T. Gessey-Jones,G. Kulkarni,A. Magro,P. D. Meerburg,S. Mittal,J. H. N. Pattison,S. Pegwal,C. M. Pieterse,J. R. Pritchard,E. Puchwein,N. Razavi-Ghods,I. L. V. Roque,A. Saxena,K. H. Scheutwinkel,P. Scott,E. Shen,P. H. Sims,M. Spinelli
発行日 2025-04-23 15:10:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.CO, astro-ph.IM, cs.AI | Radiometer Calibration using Machine Learning はコメントを受け付けていません

Random Long-Context Access for Mamba via Hardware-aligned Hierarchical Sparse Attention

要約

変圧器よりも再発性ニューラルネットワーク(RNN)の重要な利点は、線形計算と空間の複雑さにより、長いシーケンスに対するより速いトレーニングと推論を可能にすることです。
ただし、RNNは根本的に歴史的コンテキストにランダムにアクセスすることができず、注意メカニズムを単に統合するだけで効率の利点を損なう可能性があります。
この制限を克服するために、\ textbf {h} ierarchical \ textbf {s} parse \ textbf {a} ttention(hsa)を提案します。
HSAは、入力をチャンクに分割し、最高$ k $チャンクを選択し、情報を階層的に集約します。
コアイノベーションは、各チャンク内の細粒トークンレベルの情報に基づいて、トークンとチャンクまでの関連性を学習することにあります。
このアプローチは、ドメイン内とドメイン外のコンテキストの長さの両方で、チャンク選択の精度を高めます。
HSAを効率的にするために、ハードウェアに並べられたカーネル設計をさらに紹介します。
HSAとMAMBAを組み合わせることで、RAMBAを導入します。これは、4Kの長さのコンテキストのみでトレーニング前にトレーニングを行うにもかかわらず、6400万のコンテキストにわたってPassKey検索で完全な精度を達成し、ほぼ一定のメモリフットプリントを備えたさまざまなダウンストリームタスクの大幅な改善を実現します。
これらの結果は、ランバのロングコンテキストモデリングにおける大きな可能性を示しています。

要約(オリジナル)

A key advantage of Recurrent Neural Networks (RNNs) over Transformers is their linear computational and space complexity enables faster training and inference for long sequences. However, RNNs are fundamentally unable to randomly access historical context, and simply integrating attention mechanisms may undermine their efficiency advantages. To overcome this limitation, we propose \textbf{H}ierarchical \textbf{S}parse \textbf{A}ttention (HSA), a novel attention mechanism that enhances RNNs with long-range random access flexibility while preserving their merits in efficiency and length generalization. HSA divides inputs into chunks, selecting the top-$k$ chunks and hierarchically aggregates information. The core innovation lies in learning token-to-chunk relevance based on fine-grained token-level information inside each chunk. This approach enhances the precision of chunk selection across both in-domain and out-of-domain context lengths. To make HSA efficient, we further introduce a hardware-aligned kernel design. By combining HSA with Mamba, we introduce RAMba, which achieves perfect accuracy in passkey retrieval across 64 million contexts despite pre-training on only 4K-length contexts, and significant improvements on various downstream tasks, with nearly constant memory footprint. These results show RAMba’s huge potential in long-context modeling.

arxiv情報

著者 Xiang Hu,Jiaqi Leng,Jun Zhao,Kewei Tu,Wei Wu
発行日 2025-04-23 15:15:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Random Long-Context Access for Mamba via Hardware-aligned Hierarchical Sparse Attention はコメントを受け付けていません

Rethinking and Recomputing the Value of Machine Learning Models

要約

この論文では、機械学習モデルのトレーニングと評価への一般的なアプローチは、人々にとって有益な価値を生み出すことを目的とした組織または社会的文脈の中で、実際のアプリケーションを考慮していないことが多いと主張します。
視点の変化を提案し、モデルの評価と選択を再定義して、マシンの予測と人間の専門知識を組み合わせたワークフローへの統合を強調します。
精度やFスコアなどの従来の指標は、このようなハイブリッド設定でモデルの有益な価値をキャプチャできません。
これに対処するために、正しい予測、エラー、拒否のためのタスク固有のコストを組み込んだ、シンプルでありながら理論的には「値」メトリックを導入し、実際の評価のための実用的なフレームワークを提供します。
広範な実験を通じて、既存のメトリックが実際のニーズをキャプチャできず、多くの場合、分類器をランク付けするために使用される場合に価値の観点から最適ではない選択につながることがわかります。
さらに、モデル値を決定する際のキャリブレーションの重要な役割を強調し、単純で適切に調整されたモデルが、しばしばキャリブレーションが困難なより複雑なモデルを上回ることができることを示しています。

要約(オリジナル)

In this paper, we argue that the prevailing approach to training and evaluating machine learning models often fails to consider their real-world application within organizational or societal contexts, where they are intended to create beneficial value for people. We propose a shift in perspective, redefining model assessment and selection to emphasize integration into workflows that combine machine predictions with human expertise, particularly in scenarios requiring human intervention for low-confidence predictions. Traditional metrics like accuracy and f-score fail to capture the beneficial value of models in such hybrid settings. To address this, we introduce a simple yet theoretically sound ‘value’ metric that incorporates task-specific costs for correct predictions, errors, and rejections, offering a practical framework for real-world evaluation. Through extensive experiments, we show that existing metrics fail to capture real-world needs, often leading to suboptimal choices in terms of value when used to rank classifiers. Furthermore, we emphasize the critical role of calibration in determining model value, showing that simple, well-calibrated models can often outperform more complex models that are challenging to calibrate.

arxiv情報

著者 Burcu Sayin,Jie Yang,Xinyue Chen,Andrea Passerini,Fabio Casati
発行日 2025-04-23 15:24:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Rethinking and Recomputing the Value of Machine Learning Models はコメントを受け付けていません

Process Reward Models That Think

要約

ステップバイステップ検証剤 – プロセス報酬モデル(PRMS)とも呼ばれます – は、テスト時間スケーリングの重要な成分です。
PRMSにはステップレベルの監督が必要であり、訓練に費用がかかります。
この作業は、検証チェーン(COT)を生成することにより、ソリューションのすべてのステップを検証する、言語化された段階的報酬モデルとしてデータ効率の高いPRMを構築することを目的としています。
識別PRMSが必要とするものよりも数桁少ないプロセスラベルで微調整された長いCOT検証剤であるThinkPrmを提案します。
私たちのアプローチは、長いCOTモデルの固有の推論能力を活用し、いくつかの挑戦的なベンチマークにわたって、PRM800Kのプロセスラベルの1%のみを使用して、LLM-As-A-A-Judgeおよび差別的検証剤を上回ります。
具体的には、ThinkPrmは、ProcessBench、Math-500、およびAIME ’24のベースラインを、Best-of-N SelectionおよびReward Guided Searchの下で打ち負かします。
GPQA-ダイヤモンドとLiveCodebenchのサブセットでのドメイン外評価では、PRMはそれぞれ完全なPRM800Kで訓練された識別検証剤をそれぞれ8%と4.5%訓練します。
最後に、同じトークン予算の下で、ThinkPrmは検証をスケールアップして、LLM-As-a-Judgeと比較してより効果的に計算され、ProcessBenchのサブセットで7.2%を上回ります。
私たちの仕事は、トレーニングに最小限の監督を必要としながら、検証のためにテスト時間計算をスケーリングできる生成的で長いCOT PRMの価値を強調しています。
コード、データ、モデルはhttps://github.com/mukhal/thinkprmでリリースされます。

要約(オリジナル)

Step-by-step verifiers — also known as process reward models (PRMs) — are a key ingredient for test-time scaling. PRMs require step-level supervision, making them expensive to train. This work aims to build data-efficient PRMs as verbalized step-wise reward models that verify every step in the solution by generating a verification chain-of-thought (CoT). We propose ThinkPRM, a long CoT verifier fine-tuned on orders of magnitude fewer process labels than those required by discriminative PRMs. Our approach capitalizes on the inherent reasoning abilities of long CoT models, and outperforms LLM-as-a-Judge and discriminative verifiers — using only 1% of the process labels in PRM800K — across several challenging benchmarks. Specifically, ThinkPRM beats the baselines on ProcessBench, MATH-500, and AIME ’24 under best-of-N selection and reward-guided search. In an out-of-domain evaluation on a subset of GPQA-Diamond and LiveCodeBench, our PRM surpasses discriminative verifiers trained on the full PRM800K by 8% and 4.5%, respectively. Lastly, under the same token budget, ThinkPRM scales up verification compute more effectively compared to LLM-as-a-Judge, outperforming it by 7.2% on a subset of ProcessBench. Our work highlights the value of generative, long CoT PRMs that can scale test-time compute for verification while requiring minimal supervision for training. Our code, data, and models will be released at https://github.com/mukhal/thinkprm.

arxiv情報

著者 Muhammad Khalifa,Rishabh Agarwal,Lajanugen Logeswaran,Jaekyeom Kim,Hao Peng,Moontae Lee,Honglak Lee,Lu Wang
発行日 2025-04-23 15:44:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Process Reward Models That Think はコメントを受け付けていません

ChatDBG: Augmenting Debugging with Large Language Models

要約

デバッグは、プログラマーにとって重要だが挑戦的なタスクです。
このペーパーでは、AIを搭載したデバッグアシスタントであるChatDBGを提案します。
CHATDBGは、大規模な言語モデル(LLMS)を統合して、従来のデバッグの機能とユーザーフレンドリーを大幅に強化します。
chatDBGにより、プログラマーはデバッガーとの共同の対話を行い、プログラム状態に関する複雑な質問を提起し、クラッシュまたはアサーションの障害の根本原因分析を実行し、「なぜx null?」
これらのクエリを処理するために、CHATDBGはLLMの自律性を付与して「ホイールを取る」ことを許可します。デバッガーをクエリして制御してスタックをナビゲートし、プログラム状態を検査できる独立したエージェントとして機能します。
次に、その結​​果を報告し、プログラマーに戻ってコントロールをもたらします。
LLMSに組み込まれた実世界の知識を活用することにより、ChATDBGはドメイン固有の推論を使用してのみ識別可能な問題を診断できます。
当社のCHATDBGプロトタイプは、ネイティブコード用のLLDBおよびGDB、Python用のPDBを含む標準のデバッガーと統合されています。
既知のバグを備えたC/C ++コードやスタンドアロンスクリプトやJupyterノートブックを含む一連のPythonコードを含む、多様なコードセット全体での評価は、chatDBGが根源を正常に分析し、バグを説明し、幅広い実際の誤差エラーの正確な修正を生成できることを示しています。
Pythonプログラムの場合、単一のクエリにより、67%の時間の実行可能なバグ修正が行われました。
追加のフォローアップクエリは、成功率を85%に増加させました。
ChatDBGには急速な摂取が見られました。
すでに75,000回以上ダウンロードされています。

要約(オリジナル)

Debugging is a critical but challenging task for programmers. This paper proposes ChatDBG, an AI-powered debugging assistant. ChatDBG integrates large language models (LLMs) to significantly enhance the capabilities and user-friendliness of conventional debuggers. ChatDBG lets programmers engage in a collaborative dialogue with the debugger, allowing them to pose complex questions about program state, perform root cause analysis for crashes or assertion failures, and explore open-ended queries like ‘why is x null?’. To handle these queries, ChatDBG grants the LLM autonomy to ‘take the wheel’: it can act as an independent agent capable of querying and controlling the debugger to navigate through stacks and inspect program state. It then reports its findings and yields back control to the programmer. By leveraging the real-world knowledge embedded in LLMs, ChatDBG can diagnose issues identifiable only through the use of domain-specific reasoning. Our ChatDBG prototype integrates with standard debuggers including LLDB and GDB for native code and Pdb for Python. Our evaluation across a diverse set of code, including C/C++ code with known bugs and a suite of Python code including standalone scripts and Jupyter notebooks, demonstrates that ChatDBG can successfully analyze root causes, explain bugs, and generate accurate fixes for a wide range of real-world errors. For the Python programs, a single query led to an actionable bug fix 67% of the time; one additional follow-up query increased the success rate to 85%. ChatDBG has seen rapid uptake; it has already been downloaded more than 75,000 times.

arxiv情報

著者 Kyla H. Levin,Nicolas van Kempen,Emery D. Berger,Stephen N. Freund
発行日 2025-04-23 15:48:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.PL, cs.SE | ChatDBG: Augmenting Debugging with Large Language Models はコメントを受け付けていません

Improving Significant Wave Height Prediction Using Chronos Models

要約

正確な波の高さの予測は、海上安全性と沿岸の回復力にとって重要ですが、従来の物理学ベースのモデルと従来の機械学習方法は、計算効率と非線形ダイナミクスモデリングの課題に直面しています。
この研究では、波の予測用に最適化された大規模な言語モデル(LLM)を搭載した時間的アーキテクチャ(Chronos)の最初の実装であるChronosを紹介します。
北西太平洋盆地の3つの戦略的に選択された海洋ゾーンからの歴史的波データに適用される高度な時間パターン認識を通じて、当社のフレームワークはマルチモーダルの改善を達成します。
(2)包括的なメトリック全体で優れた短期予測(1-24H)。
(3)拡張範囲予測における持続的な予測リーダーシップ(1-120H)。
(4)特殊な運用モデルに対してパフォーマンスの中央値(ランク4/12)を維持するゼロショット機能を実証しました。
このLLM強化時間モデリングパラダイムは、波の予測に新しい標準を確立し、計算効率の良いソリューションと複雑な地球物理システムモデリングのための転送可能なフレームワークの両方を提供します。

要約(オリジナル)

Accurate wave height prediction is critical for maritime safety and coastal resilience, yet conventional physics-based models and traditional machine learning methods face challenges in computational efficiency and nonlinear dynamics modeling. This study introduces Chronos, the first implementation of a large language model (LLM)-powered temporal architecture (Chronos) optimized for wave forecasting. Through advanced temporal pattern recognition applied to historical wave data from three strategically chosen marine zones in the Northwest Pacific basin, our framework achieves multimodal improvements: (1) 14.3% reduction in training time with 2.5x faster inference speed compared to PatchTST baselines, achieving 0.575 mean absolute scaled error (MASE) units; (2) superior short-term forecasting (1-24h) across comprehensive metrics; (3) sustained predictive leadership in extended-range forecasts (1-120h); and (4) demonstrated zero-shot capability maintaining median performance (rank 4/12) against specialized operational models. This LLM-enhanced temporal modeling paradigm establishes a new standard in wave prediction, offering both computationally efficient solutions and a transferable framework for complex geophysical systems modeling.

arxiv情報

著者 Yilin Zhai,Hongyuan Shi,Chao Zhan,Qing Wang,Zaijin You,Nan Wang
発行日 2025-04-23 15:56:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.ao-ph | Improving Significant Wave Height Prediction Using Chronos Models はコメントを受け付けていません

Approximating Optimal Labelings for Temporal Connectivity

要約

一時的なグラフでは、エッジセットは、エッジが使用可能な時間ステップを示す各エッジに関連付けられた一連のタイムラベルに応じて、時間の経過とともに動的に変化します。
2つの頂点が接続されています。それらを接続するパスがあり、エッジがラベルの順序を増やして通過します。
すべての頂点のペアが特定の最大時間内で接続され、ラベルの総数が最小化されるように、一時的なグラフのエッジの可用性時間をスケジュールする問題を調査します。
\ emphed {Minimut Aged Laveling}(MAL)として知られる問題には、ソーシャルネットワークで拡散するロジスティクス、流通スケジューリング、および情報が広がるいくつかのアプリケーションがあります。この場合、タイムラベルを慎重に選択すると、インフラストラクチャコスト、燃料消費、または温室効果ガスが大幅に削減されます。
問題は、以前は、無向グラフではNPが完全に、指示されたグラフでは\ APXハードであることが証明されていました。
この論文では、いくつかの方向におけるMALの複雑さと近似性に関する知識を拡張します。
最初に、$ a \ geq 2 $の場合、$ o(\ log n)$よりも$ o(\ log n)$よりも優れた係数内で、$ \ text {p} = \ text {np} $、および$ 2 ^{\ log ^{1- \ epsilon} n} $よりも優れた因子が$ 2よりも優れていないことを示しています。
\ text {dtime}(2^{\ text {polylog}(n)})$、$ n $はグラフの頂点の数です。
次に、いくつかの条件下で、これらの下限にほぼ一致する一連の近似アルゴリズムを示します。
特に、近似は$ a $と入力グラフの直径の関係に依存することを示します。
さらに、\ emphent {直径制約のサブグラフ}(DCSS)と呼ばれる静的グラフの基礎最適化問題との接続を確立し、硬度の結果がDCSSにも当てはまることを示します。

要約(オリジナル)

In a temporal graph the edge set dynamically changes over time according to a set of time-labels associated with each edge that indicates at which time-steps the edge is available. Two vertices are connected if there is a path connecting them in which the edges are traversed in increasing order of their labels. We study the problem of scheduling the availability time of the edges of a temporal graph in such a way that all pairs of vertices are connected within a given maximum allowed time $a$ and the overall number of labels is minimized. The problem, known as \emph{Minimum Aged Labeling} (MAL), has several applications in logistics, distribution scheduling, and information spreading in social networks, where carefully choosing the time-labels can significantly reduce infrastructure costs, fuel consumption, or greenhouse gases. The problem MAL has previously been proved to be NP-complete on undirected graphs and \APX-hard on directed graphs. In this paper, we extend our knowledge on the complexity and approximability of MAL in several directions. We first show that the problem cannot be approximated within a factor better than $O(\log n)$ when $a\geq 2$, unless $\text{P} = \text{NP}$, and a factor better than $2^{\log ^{1-\epsilon} n}$ when $a\geq 3$, unless $\text{NP}\subseteq \text{DTIME}(2^{\text{polylog}(n)})$, where $n$ is the number of vertices in the graph. Then we give a set of approximation algorithms that, under some conditions, almost match these lower bounds. In particular, we show that the approximation depends on a relation between $a$ and the diameter of the input graph. We further establish a connection with a foundational optimization problem on static graphs called \emph{Diameter Constrained Spanning Subgraph} (DCSS) and show that our hardness results also apply to DCSS.

arxiv情報

著者 Daniele Carnevale,Gianlorenzo D’Angelo,Martin Olsen
発行日 2025-04-23 16:00:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS | Approximating Optimal Labelings for Temporal Connectivity はコメントを受け付けていません