Superhuman Game AI Disclosure: Expertise and Context Moderate Effects on Trust and Fairness

要約

人工知能が選択されたタスクで人間のパフォーマンスを上回るので、超人的な能力の開示は、公平性、説明責任、信頼のための明確な課題をもたらします。
ただし、特に落胆や過度の依存などの潜在的な否定的な反応に関して、このような開示が多様なユーザーの態度や行動に与える影響は不明のままです。
このペーパーでは、ペルソナカードを利用してこれらの効果を調査します。多様なユーザーの反応と公平性の視点をシミュレートするために設計された、検証された標準化された合成ペルソナのセットです。
倫理委員会が承認した研究(n = 32)を実施し、これらのペルソナを利用して、能力開示が競争力のあるStarcraft IIシナリオで超人的なゲームAIで行動にどのように影響したかを調査しました。
我々の結果は、透明性が二重になっていることを明らかにしています。開示は疑いを軽減する可能性がありますが、協力的なシナリオで初心者の間でフラストレーションと戦略的敗北主義を引き起こし、競争の激しい状況における過依存も引き起こしました。
経験豊富で競争力のあるプレーヤーは、開示を無敵の対戦相手の確認と解釈し、最適ではない目標に移行しました。
プロファイル、プロンプト、インタラクションログ、プロトコルなどのペルソナカードデータセットをリリースして、人間のアライメントAI設計に関する再現可能な研究を促進します。
この研究は、透明性が治療法ではないことを示しています。
信頼と説明責任を強化するために開示を成功裏に活用するには、ユーザーの特性、ドメインの規範、および特定の公平性の目的に注意する必要があります。

要約(オリジナル)

As artificial intelligence surpasses human performance in select tasks, disclosing superhuman capabilities poses distinct challenges for fairness, accountability, and trust. However, the impact of such disclosures on diverse user attitudes and behaviors remains unclear, particularly concerning potential negative reactions like discouragement or overreliance. This paper investigates these effects by utilizing Persona Cards: a validated, standardized set of synthetic personas designed to simulate diverse user reactions and fairness perspectives. We conducted an ethics board-approved study (N=32), utilizing these personas to investigate how capability disclosure influenced behaviors with a superhuman game AI in competitive StarCraft II scenarios. Our results reveal transparency is double-edged: while disclosure could alleviate suspicion, it also provoked frustration and strategic defeatism among novices in cooperative scenarios, as well as overreliance in competitive contexts. Experienced and competitive players interpreted disclosure as confirmation of an unbeatable opponent, shifting to suboptimal goals. We release the Persona Cards Dataset, including profiles, prompts, interaction logs, and protocols, to foster reproducible research into human alignment AI design. This work demonstrates that transparency is not a cure-all; successfully leveraging disclosure to enhance trust and accountability requires careful tailoring to user characteristics, domain norms, and specific fairness objectives.

arxiv情報

著者 Jaymari Chua,Chen Wang,Lina Yao
発行日 2025-04-07 17:39:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.ET, cs.HC, H.5.1 | Superhuman Game AI Disclosure: Expertise and Context Moderate Effects on Trust and Fairness はコメントを受け付けていません

A Formalisation of the Purpose Framework: the Autonomy-Alignment Problem in Open-Ended Learning Robots

要約

人工知能の前例のない進歩により、ますます自律的なロボットの開発が可能になります。
これらのロボットには、特に工学的な工場の設定を超えて、人間が住む非構造化された環境で動作するように移動する上で、重要な可能性があります。
ただし、この可能性は、関連する自律整列問題を生成し、ロボットの自律学習プロセスが、人間の実用的な目的を達成するために関連する知識を習得することに焦点を当てていることを保証しますが、その行動は依然としてより広い目的と一致しています。
文献はこの問題に対処し始めているだけであり、概念的、用語、正式な枠組みがまだ不足しています。
ここでは、問題の最も挑戦的な例の1つに取り組みます。自己生成された目標と本質的な動機に導かれた環境との直接的な相互作用を通じて、累積的に新しいスキルと知識を獲得できる自律的なオープンエンド学習(OEL)ロボットです。
特に、自律性と制御のバランスをとるOELロボットアーキテクチャの設計をサポートするために、まず定性的に導入され、次に正式化された計算フレームワークを提案します。
フレームワークは、目的の斬新な概念にピボットします。
人間の目的は、人間(デザイナーやユーザーなど)が、自律性の特定の境界内で、それが動作するドメインとは独立して、ロボットに学習、行う、またはしないかを指定します。
複数の目的の間の仲裁。
特定のドメイン依存のロボット目標への目的の基礎。
そして、これらの目標を達成するために能力の獲得が必要でした。
フレームワークとその潜在的なユーティリティは、その内部に囲まれた仮想的な例シナリオの議論を通じてさらに解明されます。

要約(オリジナル)

The unprecedented advancement of artificial intelligence enables the development of increasingly autonomous robots. These robots hold significant potential, particularly in moving beyond engineered factory settings to operate in the unstructured environments inhabited by humans. However, this possibility also generates a relevant autonomy-alignment problem to ensure that robots’ autonomous learning processes still focus on acquiring knowledge relevant to accomplish human practical purposes, while their behaviour still aligns with their broader purposes. The literature has only begun to address this problem, and a conceptual, terminological, and formal framework is still lacking. Here we address one of the most challenging instances of the problem: autonomous open-ended learning (OEL) robots, capable of cumulatively acquiring new skills and knowledge through direct interaction with the environment, guided by self-generated goals and intrinsic motivations. In particular, we propose a computational framework, first introduced qualitatively and then formalised, to support the design of OEL robot architectures that balance autonomy and control. The framework pivots on the novel concept of purpose. A human purpose specifies what humans (e.g., designers or users) want the robot to learn, do or not do, within a certain boundary of autonomy and independently of the domains in which it operates.The framework decomposes the autonomy-alignment problem into more tractable sub-problems: the alignment of `robot purposes’ with human purposes, either by hardwiring or through learning; the arbitration between multiple purposes; the grounding of purposes into specific domain-dependent robot goals; and the competence acquisition needed to accomplish these goals. The framework and its potential utility are further elucidated through the discussion of hypothetical example scenarios framed within it.

arxiv情報

著者 Gianluca Baldassarre,Richard J. Duro,Emilio Cartoni,Mehdi Khamassi,Alejandro Romero,Vieri Giuliano Santucci
発行日 2025-04-07 17:46:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | A Formalisation of the Purpose Framework: the Autonomy-Alignment Problem in Open-Ended Learning Robots はコメントを受け付けていません

Dion: A Communication-Efficient Optimizer for Large Models

要約

大規模なAIモデルを効率的にトレーニングするには、複数のアクセラレータに計算を分散させる必要がありますが、この場合、特に勾配の同期時に、しばしば大きな通信オーバーヘッドが発生します。我々は、標準的な分散トレーニング(DDP、FSDPなど)の同期セマンティクスを維持しつつ、I/Oコストを大幅に削減した通信効率の高いオプティマイザであるDionを紹介する。完全な勾配行列を同期させる従来のオプティマイザとは異なり、Dionはデバイスローカルの運動量バッファを用いた正規直交更新を活用することで、完全な勾配交換の必要性を排除しています。さらに、トレーニング中に大きな行列を再構築することを回避する効率的なシャーディング戦略をサポートしています。

要約(オリジナル)

Training large AI models efficiently requires distributing computation across multiple accelerators, but this often incurs significant communication overhead — especially during gradient synchronization. We introduce Dion, a communication-efficient optimizer that retains the synchronous semantics of standard distributed training (e.g., DDP, FSDP) while substantially reducing I/O costs. Unlike conventional optimizers that synchronize full gradient matrices, Dion leverages orthonormalized updates with device-local momentum buffers, eliminating the need for full gradient exchange. It further supports an efficient sharding strategy that avoids reconstructing large matrices during training.

arxiv情報

著者 Kwangjun Ahn,Byron Xu
発行日 2025-04-07 17:49:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, math.OC | Dion: A Communication-Efficient Optimizer for Large Models はコメントを受け付けていません

Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens

要約

$ N $ -GRAM言語モデルは、この神経大型言語モデル(LLMS)の時代に依然として関連していますか?
私たちの答えはイエスであり、テキスト分析と神経LLMの改善の両方でそれらの値を紹介します。
これは、2つの側面で$ n $ -gram lmsを近代化することによって行われました。
まず、ニューラルLLMと同じデータスケールでそれらをトレーニングします – 5兆トークン。
これは、これまでに建設された最大の$ n $ -gram lmです。
第二に、既存の$ n $ -gram lmsは、パフォーマンスを妨げる小さな$ n $を使用します。
代わりに、バックオフ付きの新しい$ \ infty $ -gram lmを導入することにより、$ n $を任意に大きくすることを許可します。
$ n $ -GRAMカウントテーブル(非常に高価になる)を事前に計算する代わりに、インフィニグラムという名前のエンジン(接尾辞アレイを搭載)を開発します。
$ \ infty $ -GRAMフレームワークとインフィニグラムエンジンにより、人間が書かれた機械で生成されたテキストの多くの斬新で興味深い分析を実施することができます。$ \ infty $ -GRAM LMは、次のトークン予測のためにかなり高い精度(47%)であり、神経LLMを大幅に減らすことができることがわかります。
機械で生成されたテキストを分析するとき、マシンの不規則性も観察されます – $ \ infty $ -GRAM契約レベルは、神経LLMの前orainingと変圧器の位置埋め込みの欠陥を示します。

要約(オリジナル)

Are $n$-gram language models still relevant in this era of neural large language models (LLMs)? Our answer is yes, and we showcase their values in both text analysis and improving neural LLMs. This was done by modernizing $n$-gram LMs in two aspects. First, we train them at the same data scale as neural LLMs — 5 trillion tokens. This is the largest $n$-gram LM ever built. Second, existing $n$-gram LMs use small $n$ which hinders their performance; we instead allow $n$ to be arbitrarily large, by introducing a new $\infty$-gram LM with backoff. Instead of pre-computing $n$-gram count tables (which would be very expensive), we develop an engine named infini-gram — powered by suffix arrays — that can compute $\infty$-gram (as well as $n$-gram with arbitrary $n$) probabilities with millisecond-level latency. The $\infty$-gram framework and infini-gram engine enable us to conduct many novel and interesting analyses of human-written and machine-generated text: we find that the $\infty$-gram LM has fairly high accuracy for next-token prediction (47%), and can complement neural LLMs to greatly reduce their perplexity. When analyzing machine-generated text, we also observe irregularities in the machine–$\infty$-gram agreement level with respect to the suffix length, which indicates deficiencies in neural LLM pretraining and the positional embeddings of Transformers.

arxiv情報

著者 Jiacheng Liu,Sewon Min,Luke Zettlemoyer,Yejin Choi,Hannaneh Hajishirzi
発行日 2025-04-07 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens はコメントを受け付けていません

PvNeXt: Rethinking Network Design and Temporal Motion for Point Cloud Video Recognition

要約

ポイントクラウドビデオ認識は、3Dビジョンの領域にとって不可欠なタスクとなっています。
現在、現在の4D表現学習技術は、通常、高密度のクエリ操作と組み合わせた反復処理に関与します。
時間的特徴のキャプチャには効果的ですが、このアプローチは実質的な計算冗長性につながります。
この作業では、パーソナライズされたワンショットクエリ操作を介して、効果的でありながら効率的なポイントクラウドビデオ認識のために、PVNextと名付けられたフレームワークを提案します。
特に、PVNextは、モーション模倣器とシングルステップモーションエンコーダーの2つの重要なモジュールで構成されています。
前のモジュールであるMotion Imitatorは、ポイント雲のシーケンスに固有の時間的ダイナミクスをキャプチャするように設計されているため、各フレームに対応する仮想運動を生成します。
シングルステップモーションエンコーダは、各フレームのポイントクラウドを対応する仮想モーションフレームに関連付けるワンステップクエリ操作を実行し、それにより、ポイントクラウドシーケンスからモーションキューを抽出し、シーケンス全体で時間的ダイナミクスをキャプチャします。
これら2つのモジュールを統合することで、{pvnext}が各フレームのパーソナライズされたワンショットクエリを可能にし、フレーム固有のループと集中的なクエリプロセスの必要性を効果的に排除します。
複数のベンチマークでの広範な実験は、私たちの方法の有効性を示しています。

要約(オリジナル)

Point cloud video perception has become an essential task for the realm of 3D vision. Current 4D representation learning techniques typically engage in iterative processing coupled with dense query operations. Although effective in capturing temporal features, this approach leads to substantial computational redundancy. In this work, we propose a framework, named as PvNeXt, for effective yet efficient point cloud video recognition, via personalized one-shot query operation. Specially, PvNeXt consists of two key modules, the Motion Imitator and the Single-Step Motion Encoder. The former module, the Motion Imitator, is designed to capture the temporal dynamics inherent in sequences of point clouds, thus generating the virtual motion corresponding to each frame. The Single-Step Motion Encoder performs a one-step query operation, associating point cloud of each frame with its corresponding virtual motion frame, thereby extracting motion cues from point cloud sequences and capturing temporal dynamics across the entire sequence. Through the integration of these two modules, {PvNeXt} enables personalized one-shot queries for each frame, effectively eliminating the need for frame-specific looping and intensive query processes. Extensive experiments on multiple benchmarks demonstrate the effectiveness of our method.

arxiv情報

著者 Jie Wang,Tingfa Xu,Lihe Ding,Xinjie Zhang,Long Bai,Jianan Li
発行日 2025-04-07 13:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PvNeXt: Rethinking Network Design and Temporal Motion for Point Cloud Video Recognition はコメントを受け付けていません

Content-Distortion High-Order Interaction for Blind Image Quality Assessment

要約

内容と歪みは、画像の視覚品質に影響を与える2つの主要な要因として広く認識されています。
既存の非参照画質評価(NR-IQA)メソッドはこれらの要因をモデル化しましたが、コンテンツと歪みの間の複雑な相互作用をキャプチャできません。
この不足は、品質を正確に知覚する能力を損ないます。
これに立ち向かうために、相互作用モデリングに必要な重要な特性を分析し、階層相互作用フレームワーク内に局所的な歪みとグローバルなコンテンツ機能を集約するCODI-IQA(NR-IQAのコンテンツ歪みの高次相互作用)と呼ばれる堅牢なNR-IQAアプローチを提案します。
具体的には、プログレッシブ知覚相互作用モジュール(PPIM)が提案され、コンテンツと歪みが独立してどのように画質に影響するかを明示的にシミュレートします。
内部相互作用、粗い相互作用、細かい相互作用を統合することにより、モデルが基礎となる相互作用パターンを適切に表すことができる高次の相互作用モデリングを実現します。
十分な相互作用を確保するために、複数のPPIMを使用して、異なる粒度でマルチレベルのコンテンツと歪み機能を階層的に融合します。
また、CODI-IQAに適したトレーニング戦略を調整して、相互作用の安定性を維持します。
広範な実験は、提案された方法が、予測の精度、データ効率、および一般化能力の観点から、最先端の方法を特に上回ることを示しています。

要約(オリジナル)

The content and distortion are widely recognized as the two primary factors affecting the visual quality of an image. While existing No-Reference Image Quality Assessment (NR-IQA) methods have modeled these factors, they fail to capture the complex interactions between content and distortions. This shortfall impairs their ability to accurately perceive quality. To confront this, we analyze the key properties required for interaction modeling and propose a robust NR-IQA approach termed CoDI-IQA (Content-Distortion high-order Interaction for NR-IQA), which aggregates local distortion and global content features within a hierarchical interaction framework. Specifically, a Progressive Perception Interaction Module (PPIM) is proposed to explicitly simulate how content and distortions independently and jointly influence image quality. By integrating internal interaction, coarse interaction, and fine interaction, it achieves high-order interaction modeling that allows the model to properly represent the underlying interaction patterns. To ensure sufficient interaction, multiple PPIMs are employed to hierarchically fuse multi-level content and distortion features at different granularities. We also tailor a training strategy suited for CoDI-IQA to maintain interaction stability. Extensive experiments demonstrate that the proposed method notably outperforms the state-of-the-art methods in terms of prediction accuracy, data efficiency, and generalization ability.

arxiv情報

著者 Shuai Liu,Qingyu Mao,Chao Li,Jiacong Chen,Fanyang Meng,Yonghong Tian,Yongsheng Liang
発行日 2025-04-07 13:44:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Content-Distortion High-Order Interaction for Blind Image Quality Assessment はコメントを受け付けていません

Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation

要約

自然言語の指示に基づいて目に見えない環境をナビゲートすることは、視覚航海航法(VLN)におけるエゴセントリックエージェントにとって依然として困難です。
既存のアプローチは、主に環境表現のためにRGB画像に依存し、潜在的なテキストセマンティックと空間的キューを十分に活用し、指示と希少な環境表現の間のモダリティギャップを解決しません。
直感的には、人間は本質的に屋内ナビゲーション中の空間レイアウト内でセマンティックな知識を根拠にします。
これに触発されて、私たちは、エージェントが多様な観点から環境を接地するようにエージェントを奨励するために、多目的なセマンティック理解と空間認識(SUSA)アーキテクチャを提案します。
SUSAには、テキストセマンティック理解(TSU)モジュールが含まれています。これは、エージェントのすぐ近くの環境に環境ランドマークの説明を生成および関連付けることにより、指示と環境の間のモダリティギャップを狭めます。
さらに、深さ強化された空間知覚(DSP)モジュールは、深さ探索マップを徐々に構築し、環境レイアウトのより微妙な理解を可能にします。
実験は、SUSAのハイブリッドセマンティック空間表現がナビゲーションパフォーマンスを効果的に強化し、3つのVLNベンチマーク(Reverie、R2R、およびSOON)に新しい最先端のパフォーマンスを設定することを示しています。
ソースコードは公開されます。

要約(オリジナル)

Navigating unseen environments based on natural language instructions remains difficult for egocentric agents in Vision-and-Language Navigation (VLN). Existing approaches primarily rely on RGB images for environmental representation, underutilizing latent textual semantic and spatial cues and leaving the modality gap between instructions and scarce environmental representations unresolved. Intuitively, humans inherently ground semantic knowledge within spatial layouts during indoor navigation. Inspired by this, we propose a versatile Semantic Understanding and Spatial Awareness (SUSA) architecture to encourage agents to ground environment from diverse perspectives. SUSA includes a Textual Semantic Understanding (TSU) module, which narrows the modality gap between instructions and environments by generating and associating the descriptions of environmental landmarks in agent’s immediate surroundings. Additionally, a Depth-enhanced Spatial Perception (DSP) module incrementally constructs a depth exploration map, enabling a more nuanced comprehension of environmental layouts. Experiments demonstrate that SUSA’s hybrid semantic-spatial representations effectively enhance navigation performance, setting new state-of-the-art performance across three VLN benchmarks (REVERIE, R2R, and SOON). The source code will be publicly available.

arxiv情報

著者 Xuesong Zhang,Yunbo Xu,Jia Li,Zhenzhen Hu,Richnag Hong
発行日 2025-04-07 13:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation はコメントを受け付けていません

Climplicit: Climatic Implicit Embeddings for Global Ecological Tasks

要約

気候データに関する深い学習は、大型生態学的アプリケーションの可能性を秘めています。
ただし、ストレージ、計算、および技術的な専門知識の障壁により、深い学習コミュニティ以外の科学者の間では、その採用は限られています。
これに対処するために、地球上のどこでも暗黙の気候表現を生成するために前提とされた時空間地理的エンコーダーであるクライムプリティを紹介します。
生の気候ラスターと列車の特徴抽出器をダウンロードする必要性をバイパスすることにより、モデルはx1000少ないディスクスペースを使用し、ダウンストリームタスクの計算ニーズを大幅に削減します。
バイオームの分類、種分布モデリング、および植物特性回帰に関するクライマプリティの埋め込みを評価します。
クライマプリティック埋め込みの線形は、一貫してより良いパフォーマンスを発揮するか、または下流のタスクでモデルをゼロからゼロからトレーニングし、代替のジオロケーションエンコーディングモデルよりも全体的に優れていることがわかります。

要約(オリジナル)

Deep learning on climatic data holds potential for macroecological applications. However, its adoption remains limited among scientists outside the deep learning community due to storage, compute, and technical expertise barriers. To address this, we introduce Climplicit, a spatio-temporal geolocation encoder pretrained to generate implicit climatic representations anywhere on Earth. By bypassing the need to download raw climatic rasters and train feature extractors, our model uses x1000 fewer disk space and significantly reduces computational needs for downstream tasks. We evaluate our Climplicit embeddings on biomes classification, species distribution modeling, and plant trait regression. We find that linear probing our Climplicit embeddings consistently performs better or on par with training a model from scratch on downstream tasks and overall better than alternative geolocation encoding models.

arxiv情報

著者 Johannes Dollinger,Damien Robert,Elena Plekhanova,Lukas Drees,Jan Dirk Wegner
発行日 2025-04-07 13:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Climplicit: Climatic Implicit Embeddings for Global Ecological Tasks はコメントを受け付けていません

6Img-to-3D: Few-Image Large-Scale Outdoor Driving Scene Reconstruction

要約

現在の3D再構築技術は、いくつかの画像から忠実に忠実に推測するのに苦労しています。
具体的には、既存の方法には高い計算需要があり、詳細なポーズ情報が必要であり、閉塞領域を確実に再構築することはできません。
シングルショット画像のための効率的でスケーラブルな変圧器ベースのエンコーダーレンダーメソッドである6IMG-to-3Dを3D再構成に導入します。
当社のメソッドは、大規模で無制限の屋外ドライビングシナリオ用の6つの外向きの入力画像からのみ6つの外向きのインプット画像から3Dコンシン酸タストパラメーター化されたトリプレーを出力します。
トリプレーンパラメーター化、微分ボリュームレンダリング、シーン収縮、画像機能の投影のための契約されたカスタムクロスおよび自己触媒メカニズムを組み合わせることにより、既存の欠点を解決するための一歩を踏み出します。
グローバルなポーズ情報のない単一のタイムスタンプからの6つのサラウンドビュー車両画像が、推論時に360 $^{\ circ} $シーンを再構築し、395ミリ秒かかることを示しています。
私たちの方法では、たとえば、サードパーソンの画像や鳥の目のビューをレンダリングすることができます。
私たちのコードはhttps://github.com/continental/6img-to-3dで入手できます。この例は、https://6img-to-3d.github.io/でご覧いただけます。

要約(オリジナル)

Current 3D reconstruction techniques struggle to infer unbounded scenes from a few images faithfully. Specifically, existing methods have high computational demands, require detailed pose information, and cannot reconstruct occluded regions reliably. We introduce 6Img-to-3D, an efficient, scalable transformer-based encoder-renderer method for single-shot image to 3D reconstruction. Our method outputs a 3D-consistent parameterized triplane from only six outward-facing input images for large-scale, unbounded outdoor driving scenarios. We take a step towards resolving existing shortcomings by combining contracted custom cross- and self-attention mechanisms for triplane parameterization, differentiable volume rendering, scene contraction, and image feature projection. We showcase that six surround-view vehicle images from a single timestamp without global pose information are enough to reconstruct 360$^{\circ}$ scenes during inference time, taking 395 ms. Our method allows, for example, rendering third-person images and birds-eye views. Our code is available at https://github.com/continental/6Img-to-3D, and more examples can be found at our website here https://6Img-to-3D.GitHub.io/.

arxiv情報

著者 Théo Gieruc,Marius Kästingschäfer,Sebastian Bernhard,Mathieu Salzmann
発行日 2025-04-07 14:07:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | 6Img-to-3D: Few-Image Large-Scale Outdoor Driving Scene Reconstruction はコメントを受け付けていません

ABCDWaveNet: Advancing Robust Road Ponding Detection in Fog through Dynamic Frequency-Spatial Synergy

要約

道路池は、特に不利な霧状態において、車両の安全性に対する重大な脅威をもたらし、信頼できる検出は、高度なドライバー支援システム(ADA)にとって永続的な課題のままです。
これに対処するために、霧の中での堅牢な池検出のための動的な周波数空間的相乗効果を活用する新しい深い学習フレームワークであるAbcdwavenetを提案します。
ABCDWAVENETのコアは、相乗的周波数空間特徴の強化のためのウェーブレットベースのモジュールとさまざまな視点を介した適応特徴抽出の動的畳み込みを統合し、霧の干渉に対する堅牢性を大幅に改善することにより、この相乗効果を達成します。
この基盤に基づいて、ABCDWAVENETはマルチスケールの構造的およびコンテキスト情報をキャプチャし、その後、適応的な注意カップリングゲート(AACG)を使用して、グローバルな機能とローカル機能を融合させて精度を向上させます。
組み合わせた有害条件下での現実的な評価を容易にするために、霧の低い低光の水たまりデータセットを導入します。
広範な実験では、ABCDWAVENETが新しい最先端のパフォーマンスを確立し、霧のパドル、Puddle-1000、およびFoggy Low-light Puddle Datasetsで3.51%、1.75%、および1.03%の組合(IOU)の利益を超える大幅な交差点を達成することを示しています。
さらに、Nvidia Jetson AGX Orinでの25.48 FPSの処理速度は、ADASの展開に対する適合性を確認します。
これらの調査結果は、ABCDWAVENET内で提案された動的周波数空間的相乗効果の有効性を強調しており、困難な気象条件で確実に運用できる積極的な交通安全ソリューションを開発するための貴重な洞察を提供します。

要約(オリジナル)

Road ponding presents a significant threat to vehicle safety, particularly in adverse fog conditions, where reliable detection remains a persistent challenge for Advanced Driver Assistance Systems (ADAS). To address this, we propose ABCDWaveNet, a novel deep learning framework leveraging Dynamic Frequency-Spatial Synergy for robust ponding detection in fog. The core of ABCDWaveNet achieves this synergy by integrating dynamic convolution for adaptive feature extraction across varying visibilities with a wavelet-based module for synergistic frequency-spatial feature enhancement, significantly improving robustness against fog interference. Building on this foundation, ABCDWaveNet captures multi-scale structural and contextual information, subsequently employing an Adaptive Attention Coupling Gate (AACG) to adaptively fuse global and local features for enhanced accuracy. To facilitate realistic evaluations under combined adverse conditions, we introduce the Foggy Low-Light Puddle dataset. Extensive experiments demonstrate that ABCDWaveNet establishes new state-of-the-art performance, achieving significant Intersection over Union (IoU) gains of 3.51%, 1.75%, and 1.03% on the Foggy-Puddle, Puddle-1000, and our Foggy Low-Light Puddle datasets, respectively. Furthermore, its processing speed of 25.48 FPS on an NVIDIA Jetson AGX Orin confirms its suitability for ADAS deployment. These findings underscore the effectiveness of the proposed Dynamic Frequency-Spatial Synergy within ABCDWaveNet, offering valuable insights for developing proactive road safety solutions capable of operating reliably in challenging weather conditions.

arxiv情報

著者 Ronghui Zhang,Dakang Lyu,Tengfei Li,Yunfan Wu,Ujjal Manandhar,Benfei Wang,Junzhou Chen,Bolin Gao,Danwei Wang,Yiqiu Tan
発行日 2025-04-07 14:15:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ABCDWaveNet: Advancing Robust Road Ponding Detection in Fog through Dynamic Frequency-Spatial Synergy はコメントを受け付けていません