Safety-Aware Multi-Agent Learning for Dynamic Network Bridging

要約

セーフティクリティカルな環境における複雑な協調タスクに取り組むことは、特に部分的な観測可能性の条件下において、マルチエージェントシステムにとって大きな課題となる。我々は、エージェントが2つの移動するターゲット間の通信経路を維持することを学習しなければならない、動的なネットワーク橋渡しタスクに焦点を当てる。このタスクでは、エージェントは移動する2つのターゲット間の通信経路を維持することを学習しなければならない。訓練中および展開中の安全性を確保するために、局所的なセットポイントの更新を通じて衝突回避を強制する制御理論的な安全フィルタを統合する。我々は、マルチエージェント強化学習による安全情報付きメッセージパッシングを開発・評価し、安全フィルタの活性化をエッジレベルの特徴としてエンコードすることで、協調性が向上することを示す。この結果は、分散マルチエージェントタスクにおいて、局所的安全性強制と分散学習を効果的に組み合わせることができることを示唆している。

要約(オリジナル)

Addressing complex cooperative tasks in safety-critical environments poses significant challenges for multi-agent systems, especially under conditions of partial observability. We focus on a dynamic network bridging task, where agents must learn to maintain a communication path between two moving targets. To ensure safety during training and deployment, we integrate a control-theoretic safety filter that enforces collision avoidance through local setpoint updates. We develop and evaluate multi-agent reinforcement learning safety-informed message passing, showing that encoding safety filter activations as edge-level features improves coordination. The results suggest that local safety enforcement and decentralized learning can be effectively combined in distributed multi-agent tasks.

arxiv情報

著者 Raffaele Galliera,Konstantinos Mitsopoulos,Niranjan Suri,Raffaele Romagnoli
発行日 2025-04-03 17:25:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.MA, cs.NI, cs.SY, eess.SY | Safety-Aware Multi-Agent Learning for Dynamic Network Bridging はコメントを受け付けていません

A Framework for Situating Innovations, Opportunities, and Challenges in Advancing Vertical Systems with Large AI Models

要約

大規模な人工知能(AI)モデルは、標準化されたベンチマークにおいてその驚くべき、しばしば「超人的」なパフォーマンスで大きな注目を集めてきた。しかし、これらのモデルが、ヘルスケア、教育、法律など、利害関係の大きい分野で展開されると、しばしば顕著な限界が明らかになる。例えば、入力データの些細な変化に対して脆弱性を示したり、重要な場面で文脈に基づかない判断を示したり、不正確な情報を自信満々に生成または再現することでユーザーの信頼を損なったりする。大規模モデルの適用におけるこれらの課題は、モデルの能力を実世界のアプリケーションのニーズに合わせるために、分野横断的なイノベーションを必要とする。我々は、大規模モデルを用いてユーザーの要求を満たすことを目的としたイノベーションをレイヤーごとに抽象化することで、このギャップに対処するフレームワークを紹介する。複数のケーススタディを通じて、様々な分野の研究者や実務家がこのフレームワークをどのように運用できるかを説明する。また、大規模モデルを有用な「垂直システム」に変換するパイプラインをモジュール化するだけでなく、フレームワークの異なるレイヤー内に存在するダイナミズムも強調する。最後に、本フレームワークが研究者や実務者をどのように導くことができるのかについて、(i)イノベーションの最適な位置付け(例えば、垂直方向に特化した洞察が、垂直方向にとらわれない広範でインパクトのあるイノベーションに力を与えることができる場合)、(ii)見過ごされていた機会の発見(例えば、ベンチマークを追い求めるのではなく、実用的に有用な基礎モデルを開発するために、垂直方向全体で繰り返される問題を発見すること)、(iii)重要な課題の分野横断的なコミュニケーションの促進(例えば、AI開発者、ドメイン専門家、ヒューマンコンピュータインタラクション研究者のための共有語彙を可能にすること)を議論する。

要約(オリジナル)

Large artificial intelligence (AI) models have garnered significant attention for their remarkable, often ‘superhuman’, performance on standardized benchmarks. However, when these models are deployed in high-stakes verticals such as healthcare, education, and law, they often reveal notable limitations. For instance, they exhibit brittleness to minor variations in input data, present contextually uninformed decisions in critical settings, and undermine user trust by confidently producing or reproducing inaccuracies. These challenges in applying large models necessitate cross-disciplinary innovations to align the models’ capabilities with the needs of real-world applications. We introduce a framework that addresses this gap through a layer-wise abstraction of innovations aimed at meeting users’ requirements with large models. Through multiple case studies, we illustrate how researchers and practitioners across various fields can operationalize this framework. Beyond modularizing the pipeline of transforming large models into useful ‘vertical systems’, we also highlight the dynamism that exists within different layers of the framework. Finally, we discuss how our framework can guide researchers and practitioners to (i) optimally situate their innovations (e.g., when vertical-specific insights can empower broadly impactful vertical-agnostic innovations), (ii) uncover overlooked opportunities (e.g., spotting recurring problems across verticals to develop practically useful foundation models instead of chasing benchmarks), and (iii) facilitate cross-disciplinary communication of critical challenges (e.g., enabling a shared vocabulary for AI developers, domain experts, and human-computer interaction scholars).

arxiv情報

著者 Gaurav Verma,Jiawei Zhou,Mohit Chandra,Srijan Kumar,Munmun De Choudhury
発行日 2025-04-03 17:40:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC | A Framework for Situating Innovations, Opportunities, and Challenges in Advancing Vertical Systems with Large AI Models はコメントを受け付けていません

MegaMath: Pushing the Limits of Open Math Corpora

要約

数理的推論は人間の知能の基礎であり、大規模言語モデル(LLM)の高度な能力の重要なベンチマークである。しかし、研究コミュニティには、数学中心のLLM事前トレーニングの需要に合わせた、オープンで大規模かつ高品質なコーパスがまだ不足している。MegaMathは、数学に特化した多様なソースから、次のような手法でキュレーションされたオープンなデータセットである:(1)ウェブデータの再検討:コモンクロールから数学文書を再抽出し、数学指向のHTML最適化、高速テキストベースのフィルタリング、重複排除を行う。(2) 数学関連コードデータの想起:大規模コード学習コーパスStack-V2から質の高い数学関連コードを抽出し、データの多様性をさらに高めた。(3) 合成データの探索:ウェブデータやコードデータから、QAスタイルのテキスト、数学関連コード、インターリーブされたテキスト-コードブロックを合成した。これらの戦略を統合し、広範なアブレーションを通じてその有効性を検証することで、MegaMathは既存のオープンな数学事前学習データセットの中で最大量かつ最高品質の371Bトークンを提供する。

要約(オリジナル)

Mathematical reasoning is a cornerstone of human intelligence and a key benchmark for advanced capabilities in large language models (LLMs). However, the research community still lacks an open, large-scale, high-quality corpus tailored to the demands of math-centric LLM pre-training. We present MegaMath, an open dataset curated from diverse, math-focused sources through following practices: (1) Revisiting web data: We re-extracted mathematical documents from Common Crawl with math-oriented HTML optimizations, fasttext-based filtering and deduplication, all for acquiring higher-quality data on the Internet. (2) Recalling Math-related code data: We identified high quality math-related code from large code training corpus, Stack-V2, further enhancing data diversity. (3) Exploring Synthetic data: We synthesized QA-style text, math-related code, and interleaved text-code blocks from web data or code data. By integrating these strategies and validating their effectiveness through extensive ablations, MegaMath delivers 371B tokens with the largest quantity and top quality among existing open math pre-training datasets.

arxiv情報

著者 Fan Zhou,Zengzhi Wang,Nikhil Ranjan,Zhoujun Cheng,Liping Tang,Guowei He,Zhengzhong Liu,Eric P. Xing
発行日 2025-04-03 17:52:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | MegaMath: Pushing the Limits of Open Math Corpora はコメントを受け付けていません

Generative Evaluation of Complex Reasoning in Large Language Models

要約

強力な大規模言語モデル(LLM)が超人的な推論能力を示す中、重大な疑問が生じる:LLMは本当に推論しているのだろうか、それとも単にウェブで収集した膨大なトレーニングデータセットから答えを呼び出しているだけなのだろうか?公開されたベンチマークは、LLMのトレーニングセットに組み込まれると必然的に汚染され、忠実な評価としての信頼性が損なわれる。これに対処するため、LLMの推論を評価するために特別に設計された生成的評価フレームワークであるKUMOを紹介する。KUMOは、LLMと記号エンジンを相乗的に組み合わせ、部分的に観測可能で難易度を調整可能な、多様なマルチターン推論タスクを動的に生成する。KUMOは、自動化されたパイプラインを通じて、オープンエンドな領域にわたる新しいタスクを継続的に生成し、暗記ではなく真の汎化をモデルに実証させる。我々は、KUMOによって生成された100のドメインにわたる5,000のタスクについて、23の最先端のLLMを評価し、大学生に対する推論能力のベンチマークを行った。その結果、簡単な推論課題では多くのLLMが大学レベルの性能を上回り、複雑な推論課題では推論スケーリングされたLLMが大学レベルの性能に達することが明らかになった。さらに、KUMO課題におけるLLMの成績は、新たに発表された実世界の推論ベンチマークにおける成績と強い相関があり、KUMOが本物のLLMの推論能力を評価するための強固で永続的な評価ツールとしての価値を強調している。

要約(オリジナル)

With powerful large language models (LLMs) demonstrating superhuman reasoning capabilities, a critical question arises: Do LLMs genuinely reason, or do they merely recall answers from their extensive, web-scraped training datasets? Publicly released benchmarks inevitably become contaminated once incorporated into subsequent LLM training sets, undermining their reliability as faithful assessments. To address this, we introduce KUMO, a generative evaluation framework designed specifically for assessing reasoning in LLMs. KUMO synergistically combines LLMs with symbolic engines to dynamically produce diverse, multi-turn reasoning tasks that are partially observable and adjustable in difficulty. Through an automated pipeline, KUMO continuously generates novel tasks across open-ended domains, compelling models to demonstrate genuine generalization rather than memorization. We evaluated 23 state-of-the-art LLMs on 5,000 tasks across 100 domains created by KUMO, benchmarking their reasoning abilities against university students. Our findings reveal that many LLMs have outperformed university-level performance on easy reasoning tasks, and reasoning-scaled LLMs reach university-level performance on complex reasoning challenges. Moreover, LLM performance on KUMO tasks correlates strongly with results on newly released real-world reasoning benchmarks, underscoring KUMO’s value as a robust, enduring assessment tool for genuine LLM reasoning capabilities.

arxiv情報

著者 Haowei Lin,Xiangyu Wang,Ruilin Yan,Baizhou Huang,Haotian Ye,Jianhua Zhu,Zihao Wang,James Zou,Jianzhu Ma,Yitao Liang
発行日 2025-04-03 17:54:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Generative Evaluation of Complex Reasoning in Large Language Models はコメントを受け付けていません

Do Two AI Scientists Agree?

要約

同じ科学的課題に対して2つのAIモデルを学習させた場合、両者は同じ理論を学習するのか、それとも2つの異なる理論を学習するのか?科学の歴史を通じて、我々は実験による検証や反証によって理論が盛衰するのを目撃してきた。実験データが不足しているときには多くの理論が共存しうるが、実験データが増えるにつれて、生き残る理論の空間はより狭くなっていく。同じ話がAI科学者にも当てはまることを示す。学習データで提供されるシステムの数が増えるにつれて、AI科学者は学習した理論に収束する傾向があるが、時には異なる理論に対応する別個のグループを形成することもある。AI科学者がどのような理論を学習したかを機械的に解釈し、その一致を定量化するために、我々は、AI科学者としてのハミルトニアン-ラグランジアンニューラルネットワークMASSを提案し、物理学の標準的な問題で訓練し、AI科学者の異なる構成をシミュレートする多数のシードにわたって訓練結果を集約する。我々の発見は、AI科学者が、より複雑な系が導入されたとき、単純な設定におけるハミルトニアン理論の学習からラグランジアン定式化の学習に切り替わることを示唆している。また、学習ダイナミクスと最終的な学習重みの強いシード依存性を観測し、関連する理論の上昇と下降を制御する。最後に、我々のニューラルネットワークが解釈可能性を助けるだけでなく、より高次元の問題にも適用できることを示す。

要約(オリジナル)

When two AI models are trained on the same scientific task, do they learn the same theory or two different theories? Throughout history of science, we have witnessed the rise and fall of theories driven by experimental validation or falsification: many theories may co-exist when experimental data is lacking, but the space of survived theories become more constrained with more experimental data becoming available. We show the same story is true for AI scientists. With increasingly more systems provided in training data, AI scientists tend to converge in the theories they learned, although sometimes they form distinct groups corresponding to different theories. To mechanistically interpret what theories AI scientists learn and quantify their agreement, we propose MASS, Hamiltonian-Lagrangian neural networks as AI Scientists, trained on standard problems in physics, aggregating training results across many seeds simulating the different configurations of AI scientists. Our findings suggests for AI scientists switch from learning a Hamiltonian theory in simple setups to a Lagrangian formulation when more complex systems are introduced. We also observe strong seed dependence of the training dynamics and final learned weights, controlling the rise and fall of relevant theories. We finally demonstrate that not only can our neural networks aid interpretability, it can also be applied to higher dimensional problems.

arxiv情報

著者 Xinghong Fu,Ziming Liu,Max Tegmark
発行日 2025-04-03 17:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Do Two AI Scientists Agree? はコメントを受け付けていません

On Vanishing Variance in Transformer Length Generalization

要約

Transformerが短いシーケンスで学習された場合、テスト時に長いシーケンスにロバストに汎化できないことは広く知られている問題である。このことは、Transformerが数学的な問題解決やコード合成において素晴らしい能力を持つにもかかわらず、真の推論エンジンであるかどうかという問題を提起する。本論文では、この問題に対して消失分散の視点を提供する。我々の知る限り、今日のフロンティアモデルであっても、シーケンス長が長くなると、マルチヘッド注意モジュールの出力の分散が減少することを初めて実証した。argmax検索と辞書検索タスクにおいて、我々の実験は、注意出力の後にレイヤーの正規化を適用することで、長さの汎化が著しく改善されることを示している。我々の分析では、この改善は、分散の消失によって引き起こされる分布シフトの減少(完全な除去ではない)に起因する。

要約(オリジナル)

It is a widely known issue that Transformers, when trained on shorter sequences, fail to generalize robustly to longer ones at test time. This raises the question of whether Transformer models are real reasoning engines, despite their impressive abilities in mathematical problem solving and code synthesis. In this paper, we offer a vanishing variance perspective on this issue. To the best of our knowledge, we are the first to demonstrate that even for today’s frontier models, a longer sequence length results in a decrease in variance in the output of the multi-head attention modules. On the argmax retrieval and dictionary lookup tasks, our experiments show that applying layer normalization after the attention outputs leads to significantly better length generalization. Our analyses attribute this improvement to a reduction-though not a complete elimination-of the distribution shift caused by vanishing variance.

arxiv情報

著者 Ruining Li,Gabrijel Boduljak,Jensen,Zhou
発行日 2025-04-03 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | On Vanishing Variance in Transformer Length Generalization はコメントを受け付けていません

Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation

要約

トーキングヘッド合成は、バーチャルアバターや人間とコンピュータのインタラクションに不可欠である。しかし、既存の手法のほとんどは、単一の主要なモダリティからの制御を受け付けるように制限されており、実用的な有用性が制限されています。この目的のために、トーキングヘッド映像生成のための複数信号制御と単一信号制御の両方をサポートするエンドツーエンドの映像拡散フレームワークである୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛を紹介します。マルチ制御のために、複数のブランチを持つ並列マンバ構造を設計し、それぞれが特定の顔領域を制御するために個別の駆動信号を利用する。ゲート機構はすべての分岐に適用され、ビデオ生成の柔軟な制御を提供する。制御された映像の時間的・空間的な自然な調整を保証するために、各ブランチにおいて両次元にわたる特徴トークンを操作する駆動信号を可能にするマンバ構造を採用する。さらに、各駆動信号がマンバ構造内の対応する顔領域を独立して制御できるようにするマスクドロップ戦略を導入し、制御の競合を防ぐ。実験結果は、本手法が多様な信号によって駆動される自然な顔の動画を生成し、マンバ層が競合することなく複数の駆動モダリティをシームレスに統合することを示している。

要約(オリジナル)

Talking head synthesis is vital for virtual avatars and human-computer interaction. However, most existing methods are typically limited to accepting control from a single primary modality, restricting their practical utility. To this end, we introduce \textbf{ACTalker}, an end-to-end video diffusion framework that supports both multi-signals control and single-signal control for talking head video generation. For multiple control, we design a parallel mamba structure with multiple branches, each utilizing a separate driving signal to control specific facial regions. A gate mechanism is applied across all branches, providing flexible control over video generation. To ensure natural coordination of the controlled video both temporally and spatially, we employ the mamba structure, which enables driving signals to manipulate feature tokens across both dimensions in each branch. Additionally, we introduce a mask-drop strategy that allows each driving signal to independently control its corresponding facial region within the mamba structure, preventing control conflicts. Experimental results demonstrate that our method produces natural-looking facial videos driven by diverse signals and that the mamba layer seamlessly integrates multiple driving modalities without conflict.

arxiv情報

著者 Fa-Ting Hong,Zunnan Xu,Zixiang Zhou,Jun Zhou,Xiu Li,Qin Lin,Qinglin Lu,Dan Xu
発行日 2025-04-03 12:44:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation はコメントを受け付けていません

MAD: Makeup All-in-One with Cross-Domain Diffusion Model

要約

既存のメイクアップ技術では、異なる入力を処理するために複数のモデルを設計し、異なるメイクアップタスク(例えば、ビューティーフィルター、メイクアップトランスファー、メイクアップリムーバル)のドメイン間で特徴を揃える必要があることが多く、複雑さが増している。もう一つの限界は、参照画像を必要とせず、よりユーザーフレンドリーである、テキストガイド付きのメイクアップ試着がないことである。本研究では、様々なメイクアップタスクに単一のモデルを使用する初めての試みを行う。具体的には、異なるメイクアップタスクを領域横断的な翻訳として定式化し、領域横断的な拡散モデルを活用してすべてのタスクを達成する。エンコーダとデコーダの別々の構成やサイクルベースのメカニズムに依存する既存の方法とは異なり、我々はドメイン制御を容易にするために異なるドメイン埋め込みを使用することを提案する。これにより、単一のモデルでエンベッディングを変更するだけで、シームレスなドメイン切り替えが可能になり、異なるタスクのための追加モジュールへの依存を減らすことができる。さらに、正確なtext-to-makeupアプリケーションをサポートするために、MTデータセットをテキスト注釈で拡張したMT-Textデータセットを導入し、メイクアップ技術の実用性を進める。

要約(オリジナル)

Existing makeup techniques often require designing multiple models to handle different inputs and align features across domains for different makeup tasks, e.g., beauty filter, makeup transfer, and makeup removal, leading to increased complexity. Another limitation is the absence of text-guided makeup try-on, which is more user-friendly without needing reference images. In this study, we make the first attempt to use a single model for various makeup tasks. Specifically, we formulate different makeup tasks as cross-domain translations and leverage a cross-domain diffusion model to accomplish all tasks. Unlike existing methods that rely on separate encoder-decoder configurations or cycle-based mechanisms, we propose using different domain embeddings to facilitate domain control. This allows for seamless domain switching by merely changing embeddings with a single model, thereby reducing the reliance on additional modules for different tasks. Moreover, to support precise text-to-makeup applications, we introduce the MT-Text dataset by extending the MT dataset with textual annotations, advancing the practicality of makeup technologies.

arxiv情報

著者 Bo-Kai Ruan,Hong-Han Shuai
発行日 2025-04-03 12:52:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | MAD: Makeup All-in-One with Cross-Domain Diffusion Model はコメントを受け付けていません

Noise Calibration and Spatial-Frequency Interactive Network for STEM Image Enhancement

要約

走査型透過電子顕微鏡(STEM)は、原子配列をサブオングストローム分解能で観察できるため、物質の物理的・化学的特性を原子レベルで分解して解析することができる。しかし、ノイズ、電子ビーム損傷、試料の厚さなどの影響により、満足のいく原子レベルの画像を得ることはしばしば困難です。STEM画像をエンハンスメントすることで、材料の構造的な詳細をより鮮明にすることができます。それにもかかわらず、既存のSTEM画像エンハンスメント手法は、周波数領域における固有の特徴を通常見落としており、既存のデータセットには現実性と一般性が欠けています。これらの問題を解決するために、本論文ではSTEM画像のノイズ校正、データ合成、および強調手法を開発します。まず、より現実的なSTEM画像を合成するためのSTEMノイズ校正法を紹介する。背景ノイズ、スキャンノイズ、およびポイントワイズノイズのパラメータは、原子を含む実際のSTEM画像の統計解析とフィッティングによって得られる。次に、これらのパラメータを用いて、規則的な原子配列とランダムな原子配列の両方を考慮し、HAADFとBFモードの両方の画像を含む、より一般的なデータセットを開発する。最後に、原子配列の周期性によって形成される周波数領域の情報を探索できる、STEM画像強調のための空間周波数インタラクティブネットワークを設計する。実験の結果、我々のデータはより実際のSTEM画像に近く、我々のネットワークとともにより優れた強調性能を達成することが示された。コードはhttps://github.com/HeasonLee/SFIN}{https://github.com/HeasonLee/SFIN。

要約(オリジナル)

Scanning Transmission Electron Microscopy (STEM) enables the observation of atomic arrangements at sub-angstrom resolution, allowing for atomically resolved analysis of the physical and chemical properties of materials. However, due to the effects of noise, electron beam damage, sample thickness, etc, obtaining satisfactory atomic-level images is often challenging. Enhancing STEM images can reveal clearer structural details of materials. Nonetheless, existing STEM image enhancement methods usually overlook unique features in the frequency domain, and existing datasets lack realism and generality. To resolve these issues, in this paper, we develop noise calibration, data synthesis, and enhancement methods for STEM images. We first present a STEM noise calibration method, which is used to synthesize more realistic STEM images. The parameters of background noise, scan noise, and pointwise noise are obtained by statistical analysis and fitting of real STEM images containing atoms. Then we use these parameters to develop a more general dataset that considers both regular and random atomic arrangements and includes both HAADF and BF mode images. Finally, we design a spatial-frequency interactive network for STEM image enhancement, which can explore the information in the frequency domain formed by the periodicity of atomic arrangement. Experimental results show that our data is closer to real STEM images and achieves better enhancement performances together with our network. Code will be available at https://github.com/HeasonLee/SFIN}{https://github.com/HeasonLee/SFIN.

arxiv情報

著者 Hesong Li,Ziqi Wu,Ruiwen Shao,Tao Zhang,Ying Fu
発行日 2025-04-03 13:11:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Noise Calibration and Spatial-Frequency Interactive Network for STEM Image Enhancement はコメントを受け付けていません

Rip Current Segmentation: A Novel Benchmark and YOLOv8 Baseline Results

要約

離岸流は、世界中の多くの海岸で死亡事故や負傷の主な原因となっており、このような危険な表層水流を自動的に検出することの重要性が強調されている。本論文では、新しい課題である離岸流インスタンスのセグメンテーションに取り組む。インスタンスセグメンテーションのために新たに作成された多角形アノテーションを含む2,466$の画像を含む包括的なデータセットを紹介し、学習と検証に用いる。さらに、30FPS$で撮影され、インスタンス分割用のポリゴンとオブジェクト検出用のバウンディングボックスの両方でアノテーションされた、17$ドルのドローン動画(約24K$フレームからなる)からなる新しいデータセットを紹介し、テスト目的で採用する。静止画像に対してインスタンス分割のための様々なバージョンのYOLOv8を学習させ、テストデータセット(動画)に対する性能を評価する。その結果、YOLOv8-nanoモデル(ポータブルデバイスで実行可能)が、検証データセットで$88.94%$のmAP50、テストデータセットで$81.21%$のマクロ平均という最高の結果を達成した。この結果は、リップカレント・セグメンテーションにおける今後の研究のベースラインを提供する。我々の研究は、詳細な注釈付きデータセットを導入し、離岸流のインスタンスセグメンテーションのためのディープラーニングモデルを訓練することで、既存の文献に貢献する。コード、トレーニングの詳細、注釈付きデータセットは、https://github.com/Irikos/rip_currents で公開されている。

要約(オリジナル)

Rip currents are the leading cause of fatal accidents and injuries on many beaches worldwide, emphasizing the importance of automatically detecting these hazardous surface water currents. In this paper, we address a novel task: rip current instance segmentation. We introduce a comprehensive dataset containing $2,466$ images with newly created polygonal annotations for instance segmentation, used for training and validation. Additionally, we present a novel dataset comprising $17$ drone videos (comprising about $24K$ frames) captured at $30 FPS$, annotated with both polygons for instance segmentation and bounding boxes for object detection, employed for testing purposes. We train various versions of YOLOv8 for instance segmentation on static images and assess their performance on the test dataset (videos). The best results were achieved by the YOLOv8-nano model (runnable on a portable device), with an mAP50 of $88.94%$ on the validation dataset and $81.21%$ macro average on the test dataset. The results provide a baseline for future research in rip current segmentation. Our work contributes to the existing literature by introducing a detailed, annotated dataset, and training a deep learning model for instance segmentation of rip currents. The code, training details and the annotated dataset are made publicly available at https://github.com/Irikos/rip_currents.

arxiv情報

著者 Andrei Dumitriu,Florin Tatui,Florin Miron,Radu Tudor Ionescu,Radu Timofte
発行日 2025-04-03 13:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, I.4.0 | Rip Current Segmentation: A Novel Benchmark and YOLOv8 Baseline Results はコメントを受け付けていません