LibIQ: Toward Real-Time Spectrum Classification in O-RAN dApps

要約

O-RANアーキテクチャは、データ駆動型の監視とネットワークの制御を可能にするために、実行されたソフトウェア化と分解の概念を採用することにより、セルラーネットワークを変換しています。
このような管理は、XappsとRappsを介してほぼリアルタイムおよび非リアルタイムネットワーク制御を促進するRICSによって有効になっています。
ただし、RANとRIC間のデータ交換におけるレイテンシオーバーヘッド、リアルタイムの監視の制限、プライバシーとセキュリティの制約によりユーザープレーンデータにアクセスできないこと、ビームフォームやスペクトル分類などのユースケースが妨げられるなど、制限に直面しています。
このホワイトペーパーでは、DAPPSコンセプトを活用して、I/Qサンプルを使用してデータセットを作成し、プロットとスペクトルグログラムを介して時間撮影データを視覚化する機能性を提供する機能を提供することにより、効率的なスペクトルモニタリングと信号分類を容易にするRFシグナルの新しいライブラリであるLIBIQを使用して、リアルタイムRFスペクトル分類を可能にします。
LIBIQのおかげで、I/Qサンプルを効率的に処理して、ライブラリ内のCNNを使用して分類される外部RF信号を検出できます。
正確なスペクトル分析を実現するために、ColosseumネットワークエミュレーターとOTAテストベッドを介した5G展開で実行されているカスタムDAPPを使用してキャプチャされた個別の信号タイプを表す、時シリーズベースのI/Qサンプルの広範なデータセットを作成しました。
さまざまな中心周波数、時間窓、および外部RF信号を持つ不均一なシナリオにLIBIQを展開することにより、モデルを評価します。
リアルタイム分析では、モデルは処理されたI/Qサンプルを分類し、すべてのシナリオで信号タイプを識別する際に約97.8 \%の平均精度を達成します。
libiqと、受け入れたときに公開されているフレームワークとして作成されたデータセットの両方をリリースすることを誓約します。

要約(オリジナル)

The O-RAN architecture is transforming cellular networks by adopting RAN softwarization and disaggregation concepts to enable data-driven monitoring and control of the network. Such management is enabled by RICs, which facilitate near-real-time and non-real-time network control through xApps and rApps. However, they face limitations, including latency overhead in data exchange between the RAN and RIC, restricting real-time monitoring, and the inability to access user plain data due to privacy and security constraints, hindering use cases like beamforming and spectrum classification. In this paper, we leverage the dApps concept to enable real-time RF spectrum classification with LibIQ, a novel library for RF signals that facilitates efficient spectrum monitoring and signal classification by providing functionalities to read I/Q samples as time-series, create datasets and visualize time-series data through plots and spectrograms. Thanks to LibIQ, I/Q samples can be efficiently processed to detect external RF signals, which are subsequently classified using a CNN inside the library. To achieve accurate spectrum analysis, we created an extensive dataset of time-series-based I/Q samples, representing distinct signal types captured using a custom dApp running on a 5G deployment over the Colosseum network emulator and an OTA testbed. We evaluate our model by deploying LibIQ in heterogeneous scenarios with varying center frequencies, time windows, and external RF signals. In real-time analysis, the model classifies the processed I/Q samples, achieving an average accuracy of approximately 97.8\% in identifying signal types across all scenarios. We pledge to release both LibIQ and the dataset created as a publicly available framework upon acceptance.

arxiv情報

著者 Filippo Olimpieri,Noemi Giustini,Andrea Lacava,Salvatore D’Oro,Tommaso Melodia,Francesca Cuomo
発行日 2025-05-15 17:47:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NI | LibIQ: Toward Real-Time Spectrum Classification in O-RAN dApps はコメントを受け付けていません

Lightspeed Geometric Dataset Distance via Sliced Optimal Transport

要約

スライスした最適な輸送データセット距離(S-OTDD)を導入します。これは、トレーニングを必要としないデータセット比較のためのモデルに依存しない埋め込み型存在アプローチであり、クラスの数の変動に対して堅牢であり、孤独なラベルセットを処理できます。
コアイノベーションは、モーメント変換プロジェクション(MTP)であり、ラベルをマッピングして、機能よりも分布として表され、実数に表されます。
MTPを使用して、データセットを1次元分布に変換するデータポイントプロジェクションを導き出します。
S-OTDDは、ランダム投影パラメーターに関して、予想される分布間の予想されるワッサースタイン距離として定義されます。
S-OTDDは、1次元最適輸送の閉じたフォームソリューションを活用して、データポイントと特徴の寸法の数で(近く)線形計算の複雑さを実現し、クラスの数とは無関係です。
幾何学的に意味のある投影により、S-OTDDは最適な輸送データセット距離と強く相関し、既存のデータセットの矛盾測定よりも効率的です。
さらに、データ増強の転送学習と分類精度のパフォーマンスギャップとよく相関しています。

要約(オリジナル)

We introduce sliced optimal transport dataset distance (s-OTDD), a model-agnostic, embedding-agnostic approach for dataset comparison that requires no training, is robust to variations in the number of classes, and can handle disjoint label sets. The core innovation is Moment Transform Projection (MTP), which maps a label, represented as a distribution over features, to a real number. Using MTP, we derive a data point projection that transforms datasets into one-dimensional distributions. The s-OTDD is defined as the expected Wasserstein distance between the projected distributions, with respect to random projection parameters. Leveraging the closed form solution of one-dimensional optimal transport, s-OTDD achieves (near-)linear computational complexity in the number of data points and feature dimensions and is independent of the number of classes. With its geometrically meaningful projection, s-OTDD strongly correlates with the optimal transport dataset distance while being more efficient than existing dataset discrepancy measures. Moreover, it correlates well with the performance gap in transfer learning and classification accuracy in data augmentation.

arxiv情報

著者 Khai Nguyen,Hai Nguyen,Tuan Pham,Nhat Ho
発行日 2025-05-15 17:48:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.CO, stat.ME, stat.ML | Lightspeed Geometric Dataset Distance via Sliced Optimal Transport はコメントを受け付けていません

ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning

要約

大規模な言語モデル(LLMS)は、複雑な評価ベンチマークで印象的な機能を実証しており、その多くは質問回答(QA)タスクとして策定されています。
QAコンテキストでLLMSのパフォーマンスを向上させることは、開発と適用性を向上させるためにますます不可欠になっています。
このペーパーでは、質問の意図の分析、関連情報の取得、推論の3つの重要な手順を明示的に組み込んだ直感的で効果的な一般的なQA解決方法であるARRを紹介します。
特に、この論文は、QAで意図分析を導入した最初の論文であり、arrで重要な役割を果たしています。
10の多様なQAタスクにわたる包括的な評価は、ARRがベースラインメソッドを常に上回ることを示しています。
アブレーションとケーススタディは、各ARRコンポーネントの肯定的な貢献をさらに検証します。
さらに、迅速な設計のバリエーションを含む実験は、ARRが特定の迅速な定式化に関係なくその有効性を維持することを示しています。
さらに、さまざまなモデルサイズ、LLMシリーズ、および生成設定にわたる広範な評価が、arrの有効性、堅牢性、および一般化可能性を固めます。

要約(オリジナル)

Large language models (LLMs) have demonstrated impressive capabilities on complex evaluation benchmarks, many of which are formulated as question-answering (QA) tasks. Enhancing the performance of LLMs in QA contexts is becoming increasingly vital for advancing their development and applicability. This paper introduces ARR, an intuitive, effective, and general QA solving method that explicitly incorporates three key steps: analyzing the intent of the question, retrieving relevant information, and reasoning step by step. Notably, this paper is the first to introduce intent analysis in QA, which plays a vital role in ARR. Comprehensive evaluations across 10 diverse QA tasks demonstrate that ARR consistently outperforms the baseline methods. Ablation and case studies further validate the positive contributions of each ARR component. Furthermore, experiments involving variations in prompt design indicate that ARR maintains its effectiveness regardless of the specific prompt formulation. Additionally, extensive evaluations across various model sizes, LLM series, and generation settings solidify the effectiveness, robustness, and generalizability of ARR.

arxiv情報

著者 Yuwei Yin,Giuseppe Carenini
発行日 2025-05-15 17:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 | ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning はコメントを受け付けていません

Towards a Deeper Understanding of Reasoning Capabilities in Large Language Models

要約

大規模な言語モデルは静的ベンチマークで印象的なパフォーマンスを示していますが、動的環境での自己学習エージェントおよび推論エージェントとしての大規模な言語モデルの真の可能性は不明のままです。
この研究では、エージェントの適応能力をテストするための促す技術としての自己反省、ヒューリスティック変異、および計画の有効性を体系的に評価します。
動的環境でさまざまなオープンソース言語モデルを使用して実験を行い、一般に大きなモデルが小さなモデルよりも優れていることがわかりますが、戦略的プロンプトはこのパフォーマンスのギャップを埋めることができます。
第二に、長すぎるプロンプトは、基本的な反応タスクで小さなモデルに悪影響を与える可能性がありますが、より大きなモデルはより堅牢な動作を示します。
第三に、高度なプロンプトテクニックは主に複雑なゲームで小規模なモデルに利益をもたらしますが、すでに高性能な大手言語モデルの改善が少なくなります。
しかし、高度な推論方法は非常に多様な結果をもたらすことがわかります。推論と意思決定が一致するときにパフォーマンスを大幅に改善することができますが、不安定性も導入し、大きなパフォーマンスの低下につながる可能性があります。
人間のパフォーマンスと比較して、私たちの調査結果は、真の緊急推論の証拠をほとんど明らかにしていません。
代わりに、大規模な言語モデルのパフォーマンスは、計画、推論、空間的調整などの重要な分野で永​​続的な制限を示し、現在の世代の大規模な言語モデルが依然として基本的な欠点に苦しむことを示唆しています。
推論は多面的なタスクであり、一連の思考のような推論方法は数学の単語の問題の多段階的な推論を改善する一方で、動的ベンチマークを使用した調査結果は、一般的な推論能力の重要な欠点を強調し、静的ベンチマークを超えて推論の複雑さをキャプチャする必要性を示しています。

要約(オリジナル)

While large language models demonstrate impressive performance on static benchmarks, the true potential of large language models as self-learning and reasoning agents in dynamic environments remains unclear. This study systematically evaluates the efficacy of self-reflection, heuristic mutation, and planning as prompting techniques to test the adaptive capabilities of agents. We conduct experiments with various open-source language models in dynamic environments and find that larger models generally outperform smaller ones, but that strategic prompting can close this performance gap. Second, a too-long prompt can negatively impact smaller models on basic reactive tasks, while larger models show more robust behaviour. Third, advanced prompting techniques primarily benefit smaller models on complex games, but offer less improvement for already high-performing large language models. Yet, we find that advanced reasoning methods yield highly variable outcomes: while capable of significantly improving performance when reasoning and decision-making align, they also introduce instability and can lead to big performance drops. Compared to human performance, our findings reveal little evidence of true emergent reasoning. Instead, large language model performance exhibits persistent limitations in crucial areas such as planning, reasoning, and spatial coordination, suggesting that current-generation large language models still suffer fundamental shortcomings that may not be fully overcome through self-reflective prompting alone. Reasoning is a multi-faceted task, and while reasoning methods like Chain of thought improves multi-step reasoning on math word problems, our findings using dynamic benchmarks highlight important shortcomings in general reasoning capabilities, indicating a need to move beyond static benchmarks to capture the complexity of reasoning.

arxiv情報

著者 Annie Wong,Thomas Bäck,Aske Plaat,Niki van Stein,Anna V. Kononova
発行日 2025-05-15 17:53:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards a Deeper Understanding of Reasoning Capabilities in Large Language Models はコメントを受け付けていません

Real-Time Out-of-Distribution Failure Prevention via Multi-Modal Reasoning

要約

ファンデーションモデルは、ロボットのトレーニングデータを超えた危険なシナリオ、つまり分散除外(OOD)障害を超えた適切な安全性介入に関する堅牢な高レベルの推論を提供できます。
ただし、大きなビジョンモデルと言語モデルの潜在性が高いため、現在の方法は手動で定義された介入ポリシーに依存して、フォールバックを制定するため、一般化可能で意味的に安全な動きを計画する能力がありません。
これらの課題を克服するために、私たちは要塞を提示します。これは、OODの障害を防ぐために、意味的に安全なフォールバック戦略についてリアルタイムで生成するフレームワークと理由です。
公称操作の頻度が低いため、要塞はマルチモーダル推論者を使用して目標を特定し、故障モードを予測します。
ランタイムモニターがフォールバック応答をトリガーすると、Fortressは、リアルタイムで意味的に安全でない領域を推測および回避しながら、フォールバックの目標に対する計画を迅速に統合します。
ダイナミクスを意識した計画でオープンワールドのマルチモーダル推論を橋渡しすることにより、ハードコーディングされたフォールバックと人間の安全性介入の必要性を排除します。
要塞は、合成ベンチマークと現実世界のAnsymal Robotデータの安全分類精度における遅い推論モデルのオンザフライをアウトパフォームし、シミュレーションのシステムの安全性と計画の成功をさらに改善し、都市ナビゲーションの四極ハードウェアを改善します。

要約(オリジナル)

Foundation models can provide robust high-level reasoning on appropriate safety interventions in hazardous scenarios beyond a robot’s training data, i.e. out-of-distribution (OOD) failures. However, due to the high inference latency of Large Vision and Language Models, current methods rely on manually defined intervention policies to enact fallbacks, thereby lacking the ability to plan generalizable, semantically safe motions. To overcome these challenges we present FORTRESS, a framework that generates and reasons about semantically safe fallback strategies in real time to prevent OOD failures. At a low frequency in nominal operations, FORTRESS uses multi-modal reasoners to identify goals and anticipate failure modes. When a runtime monitor triggers a fallback response, FORTRESS rapidly synthesizes plans to fallback goals while inferring and avoiding semantically unsafe regions in real time. By bridging open-world, multi-modal reasoning with dynamics-aware planning, we eliminate the need for hard-coded fallbacks and human safety interventions. FORTRESS outperforms on-the-fly prompting of slow reasoning models in safety classification accuracy on synthetic benchmarks and real-world ANYmal robot data, and further improves system safety and planning success in simulation and on quadrotor hardware for urban navigation.

arxiv情報

著者 Milan Ganai,Rohan Sinha,Christopher Agia,Daniel Morton,Marco Pavone
発行日 2025-05-15 17:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Real-Time Out-of-Distribution Failure Prevention via Multi-Modal Reasoning はコメントを受け付けていません

Modeling Human Behavior in a Strategic Network Game with Complex Group Dynamics

要約

人間のネットワークは、富と健康の不平等、貧困、いじめなど、重要な社会的結果に大きな影響を与えます。
そのため、人間のネットワークを理解することは、好ましい社会的成果を促進する方法を学ぶために重要です。
人間のネットワークをよりよく理解するためのステップとして、小さなデータセット、The Junior High Game(JHG)と呼ばれる戦略的ネットワークゲームでの人間の行動のモデルから、学習のためのいくつかの方法を比較対照します。
これらのモデリング方法は、人間の行動(行動対コミュニティ認識行動)とそれらがモデル化する瞬間(平均対分布)をパラメーター化するために使用する仮定に関して異なります。
結果は、HCABと呼ばれる最高のパフォーマンスの方法が、平均ではなく人間の行動の分布をモデル化し、人間が行動の一致ではなくコミュニティを認識する行動を使用すると仮定していることを示しています。
小社会(6〜11人)に適用されると、HCABモデルは人間グループの人口動態を密接に反映しています(顕著な違いがあります)。
さらに、ユーザー調査では、人間の参加者は個々のHCABエージェントを他の人間と区別することができなかったため、HCABモデルがこの戦略的ネットワークゲームでもっともらしい(個々の)人間の行動も生成することを示しています。

要約(オリジナル)

Human networks greatly impact important societal outcomes, including wealth and health inequality, poverty, and bullying. As such, understanding human networks is critical to learning how to promote favorable societal outcomes. As a step toward better understanding human networks, we compare and contrast several methods for learning, from a small data set, models of human behavior in a strategic network game called the Junior High Game (JHG). These modeling methods differ with respect to the assumptions they use to parameterize human behavior (behavior vs. community-aware behavior) and the moments they model (mean vs. distribution). Results show that the highest-performing method, called hCAB, models the distribution of human behavior rather than the mean and assumes humans use community-aware behavior rather than behavior matching. When applied to small societies (6-11 individuals), the hCAB model closely mirrors the population dynamics of human groups (with notable differences). Additionally, in a user study, human participants were unable to distinguish individual hCAB agents from other humans, thus illustrating that the hCAB model also produces plausible (individual) human behavior in this strategic network game.

arxiv情報

著者 Jonathan Skaggs,Jacob W. Crandall
発行日 2025-05-15 17:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SI, physics.soc-ph | Modeling Human Behavior in a Strategic Network Game with Complex Group Dynamics はコメントを受け付けていません

Neural Thermodynamic Laws for Large Language Model Training

要約

神経尺度の法則を超えて、大規模な言語モデル(LLM)の根底にある法律についてはほとんど知られていません。
神経熱力学法(NTL)を紹介します。これは、LLMトレーニングダイナミクスに関する新鮮な洞察を提供する新しいフレームワークです。
理論的な側面では、主要な熱力学量(温度、エントロピー、熱容量、熱伝導)および古典的な熱力学的原理(たとえば、熱力学の3つの法則と等量整算定理)が自然に河川谷の損失景観の仮定の下で自然に出現することを示しています。
実用的な面では、この科学的観点は、学習率のスケジュールを設計するための直感的なガイドラインをもたらします。

要約(オリジナル)

Beyond neural scaling laws, little is known about the laws underlying large language models (LLMs). We introduce Neural Thermodynamic Laws (NTL) — a new framework that offers fresh insights into LLM training dynamics. On the theoretical side, we demonstrate that key thermodynamic quantities (e.g., temperature, entropy, heat capacity, thermal conduction) and classical thermodynamic principles (e.g., the three laws of thermodynamics and the equipartition theorem) naturally emerge under river-valley loss landscape assumptions. On the practical side, this scientific perspective yields intuitive guidelines for designing learning rate schedules.

arxiv情報

著者 Ziming Liu,Yizhou Liu,Jeff Gore,Max Tegmark
発行日 2025-05-15 17:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.data-an, stat.ML | Neural Thermodynamic Laws for Large Language Model Training はコメントを受け付けていません

Inferring Driving Maps by Deep Learning-based Trail Map Extraction

要約

高解像度(HD)マップは、運転シーンに関する広範かつ正確な環境情報を提供し、自律駆動システム内で計画するための重要かつ不可欠な要素となっています。
手動ラベルからの広範な取り組みを回避するために、マップ作成を自動化する方法が登場しました。
最近の傾向は、オフラインマッピングからオンラインマッピングに移行し、利用されたマップの可用性と現実性を確保しています。
パフォーマンスは近年増加していますが、オンラインマッピングは、時間的一貫性、センサー閉塞、ランタイム、および一般化に関する課題に依然として課題に直面しています。
ドライバーが使用するトレイル(非公式のルート)をマップ作成プロセスに統合する新しいオフラインマッピングアプローチを提案します。
この方法では、エゴ車両や他の交通参加者からのトレイルデータを集約して、変圧器ベースのディープラーニングモデルを使用して包括的なグローバルマップを構築します。
従来のオフラインマッピングとは異なり、当社のアプローチは、継続的な更新を可能にし、センサーに依存しない、効率的なデータ転送を促進します。
私たちの方法は、最先端のオンラインマッピングアプローチと比較して優れたパフォーマンスを示し、以前に見えない環境とセンサー構成の一般化の改善を実現します。
2つのベンチマークデータセットでアプローチを検証し、自律運転システムにおけるその堅牢性と適用性を強調します。

要約(オリジナル)

High-definition (HD) maps offer extensive and accurate environmental information about the driving scene, making them a crucial and essential element for planning within autonomous driving systems. To avoid extensive efforts from manual labeling, methods for automating the map creation have emerged. Recent trends have moved from offline mapping to online mapping, ensuring availability and actuality of the utilized maps. While the performance has increased in recent years, online mapping still faces challenges regarding temporal consistency, sensor occlusion, runtime, and generalization. We propose a novel offline mapping approach that integrates trails – informal routes used by drivers – into the map creation process. Our method aggregates trail data from the ego vehicle and other traffic participants to construct a comprehensive global map using transformer-based deep learning models. Unlike traditional offline mapping, our approach enables continuous updates while remaining sensor-agnostic, facilitating efficient data transfer. Our method demonstrates superior performance compared to state-of-the-art online mapping approaches, achieving improved generalization to previously unseen environments and sensor configurations. We validate our approach on two benchmark datasets, highlighting its robustness and applicability in autonomous driving systems.

arxiv情報

著者 Michael Hubbertz,Pascal Colling,Qi Han,Tobias Meisen
発行日 2025-05-15 13:09:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Inferring Driving Maps by Deep Learning-based Trail Map Extraction はコメントを受け付けていません

HandReader: Advanced Techniques for Efficient Fingerspelling Recognition

要約

指の貫通は、手話(SL)の重要な要素であり、署名中の高速手の動きを特徴とする固有名詞の解釈を可能にします。
指の認識に関する以前の研究は、ビデオの時間的次元の処理に焦点を当てていますが、これらのアプローチの精度を改善する余地は残っています。
このホワイトペーパーでは、指の発見認識タスクに対処するために設計された3つのアーキテクチャのグループであるハンドリーダーを紹介します。
HandReader $ _ {RGB} $は、新しい時間の長さのビデオからRGB機能を処理し、重要な順次情報を保存しながらRGB機能を処理するために、新しい一時的なシフト適応モジュール(TSAM)を採用しています。
HandReader $ _ {KP} $は、キーポイントで動作する提案された時間ポーズエンコーダー(TPE)に基づいて構築されています。
バッチ内のこのようなキーポイント構成により、エンコーダーは、時間的および空間的情報を利用し、キーポイント座標を蓄積し、2Dおよび3Dの畳み込み層をエンコーダに渡すことができます。
また、RGBおよびKeypointモダリティの恩恵を受けるためのジョイントエンコーダーを備えたHandreader_RGB+KP-アーキテクチャも紹介します。
各ハンドリーダーモデルには明確な利点があり、ChicagofwildおよびChicagofswild+データセットで最新の結果を達成しています。
さらに、モデルは、この論文で紹介したロシアの指の浸透Znakiの最初のオープンデータセットで高性能を示しています。
Znakiデータセットとハンドリーダーの事前訓練モデルは公開されています。

要約(オリジナル)

Fingerspelling is a significant component of Sign Language (SL), allowing the interpretation of proper names, characterized by fast hand movements during signing. Although previous works on fingerspelling recognition have focused on processing the temporal dimension of videos, there remains room for improving the accuracy of these approaches. This paper introduces HandReader, a group of three architectures designed to address the fingerspelling recognition task. HandReader$_{RGB}$ employs the novel Temporal Shift-Adaptive Module (TSAM) to process RGB features from videos of varying lengths while preserving important sequential information. HandReader$_{KP}$ is built on the proposed Temporal Pose Encoder (TPE) operated on keypoints as tensors. Such keypoints composition in a batch allows the encoder to pass them through 2D and 3D convolution layers, utilizing temporal and spatial information and accumulating keypoints coordinates. We also introduce HandReader_RGB+KP – architecture with a joint encoder to benefit from RGB and keypoint modalities. Each HandReader model possesses distinct advantages and achieves state-of-the-art results on the ChicagoFSWild and ChicagoFSWild+ datasets. Moreover, the models demonstrate high performance on the first open dataset for Russian fingerspelling, Znaki, presented in this paper. The Znaki dataset and HandReader pre-trained models are publicly available.

arxiv情報

著者 Pavel Korotaev,Petr Surovtsev,Alexander Kapitanov,Karina Kvanchiani,Aleksandr Nagaev
発行日 2025-05-15 13:18:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | HandReader: Advanced Techniques for Efficient Fingerspelling Recognition はコメントを受け付けていません

RainPro-8: An Efficient Deep Learning Model to Estimate Rainfall Probabilities Over 8 Hours

要約

ヨーロッパの8時間の地平線にわたる高解像度の確率的降水量予測の深い学習モデルを提示し、短い予測リードタイムを備えたレーダーのみの深い学習モデルの制限を克服します。
私たちのモデルは、長距離相互作用をキャプチャしながら、レーダー、衛星、物理ベースの数値予測(NWP)を含む複数のデータソースを効率的に統合し、一貫した確率的マップを介した堅牢な不確実性の定量化を伴う正確な予測をもたらします。
コンパクトなアーキテクチャを備えているため、既存のモデルよりも効率的なトレーニングとより速い推論が可能になります。
広範な実験は、私たちのモデルが現在の運用NWPシステム、外挿ベースの方法、および深部学習モデルを上回り、ヨーロッパでの高解像度降水予測の新しい基準を設定し、精度、解釈可能性、計算効率のバランスを確保することを示しています。

要約(オリジナル)

We present a deep learning model for high-resolution probabilistic precipitation forecasting over an 8-hour horizon in Europe, overcoming the limitations of radar-only deep learning models with short forecast lead times. Our model efficiently integrates multiple data sources – including radar, satellite, and physics-based numerical weather prediction (NWP) – while capturing long-range interactions, resulting in accurate forecasts with robust uncertainty quantification through consistent probabilistic maps. Featuring a compact architecture, it enables more efficient training and faster inference than existing models. Extensive experiments demonstrate that our model surpasses current operational NWP systems, extrapolation-based methods, and deep-learning nowcasting models, setting a new standard for high-resolution precipitation forecasting in Europe, ensuring a balance between accuracy, interpretability, and computational efficiency.

arxiv情報

著者 Rafael Pablos Sarabia,Joachim Nyborg,Morten Birk,Jeppe Liborius Sjørup,Anders Lillevang Vesterholt,Ira Assent
発行日 2025-05-15 13:22:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | RainPro-8: An Efficient Deep Learning Model to Estimate Rainfall Probabilities Over 8 Hours はコメントを受け付けていません