Aerial Path Online Planning for Urban Scene Updation

要約

都市環境の変更領域を検出および更新するために特別に設計された最初のシーンアップデートの空中パス計画アルゴリズムを提示します。
大規模な3D都市シーンの再構成の既存の方法は、高い精度と完全性を達成することに焦点を当てていますが、それらは多くの場合、シーン全体を再調査および再構築し、変更されていないエリアでかなりの時間とリソースを無駄にするため、定期的な更新を必要とするシナリオにとっては非効率的です。
この制限に対処するために、当社の方法は、以前の再構成を活用し、確率統計を変更して、UAVが変更される可能性のある領域を検出および焦点を合わせることを導きます。
私たちのアプローチでは、変化の可能性を評価するための新しい変化の可能性ヒューリスティックを導入し、2つの飛行経路の計画を促進します。静的事前層によって通知される以前のパスと、新しく検出された変化に適応する動的なリアルタイムパスです。
このフレームワークは、表面サンプリングと候補ビュー生成戦略を統合し、最小限の冗長性で変化領域の効率的なカバレッジを確保します。
実世界の都市データセットでの広範な実験は、この方法が飛行時間と計算オーバーヘッドを大幅に短縮し、フルシーンの再探索と再構築に匹敵する高品質の更新を維持することを示しています。
これらの貢献は、複雑な都市環境での効率的でスケーラブルで適応性のあるUAVベースのシーンの更新への道を開きます。

要約(オリジナル)

We present the first scene-update aerial path planning algorithm specifically designed for detecting and updating change areas in urban environments. While existing methods for large-scale 3D urban scene reconstruction focus on achieving high accuracy and completeness, they are inefficient for scenarios requiring periodic updates, as they often re-explore and reconstruct entire scenes, wasting significant time and resources on unchanged areas. To address this limitation, our method leverages prior reconstructions and change probability statistics to guide UAVs in detecting and focusing on areas likely to have changed. Our approach introduces a novel changeability heuristic to evaluate the likelihood of changes, driving the planning of two flight paths: a prior path informed by static priors and a dynamic real-time path that adapts to newly detected changes. The framework integrates surface sampling and candidate view generation strategies, ensuring efficient coverage of change areas with minimal redundancy. Extensive experiments on real-world urban datasets demonstrate that our method significantly reduces flight time and computational overhead, while maintaining high-quality updates comparable to full-scene re-exploration and reconstruction. These contributions pave the way for efficient, scalable, and adaptive UAV-based scene updates in complex urban environments.

arxiv情報

著者 Mingfeng Tang,Ningna Wang,Ziyuan Xie,Jianwei Hu,Ke Xie,Xiaohu Guo,Hui Huang
発行日 2025-05-13 13:43:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GR, cs.RO | Aerial Path Online Planning for Urban Scene Updation はコメントを受け付けていません

GP-GS: Gaussian Processes for Enhanced Gaussian Splatting

要約

3Dガウスのスプラッティングは、効率的なフォトリアリスティックな新規ビュー合成法として浮上しています。
ただし、モーションからのまばらな構造(SFM)ポイントクラウドへの依存は、多くの場合、シーンの再構成品質を制限します。
制限に対処するために、このペーパーでは、新しい3D再構成フレームワークを提案します。ガウスプロセスは、ガウススプラッティング(GP-GS)を強化します。このプロセスでは、マルチプットットのガウスプロセスモデルが開発され、まばらなSFMポイントクラウドの適応および不確実性の濃度化が可能になります。
具体的には、GPベースの予測を活用して入力2Dピクセルと深度マップから新しい候補ポイントを推測することにより、SFMポイントクラウドを適応的に拡張する動的なサンプリングとフィルタリングパイプラインを提案します。
パイプラインは、不確実性の推定値を利用して、高分散予測の剪定を導き、幾何学的な一貫性を確保し、密なポイント雲の生成を可能にします。
これらの高密度のポイント雲は、高品質の初期3Dガウス症を提供し、再構築パフォーマンスを向上させます。
さまざまなスケールで合成および実世界のデータセットで実施された広範な実験は、提案されたフレームワークの有効性と実用性を検証します。

要約(オリジナル)

3D Gaussian Splatting has emerged as an efficient photorealistic novel view synthesis method. However, its reliance on sparse Structure-from-Motion (SfM) point clouds often limits scene reconstruction quality. To address the limitation, this paper proposes a novel 3D reconstruction framework, Gaussian Processes enhanced Gaussian Splatting (GP-GS), in which a multi-output Gaussian Process model is developed to enable adaptive and uncertainty-guided densification of sparse SfM point clouds. Specifically, we propose a dynamic sampling and filtering pipeline that adaptively expands the SfM point clouds by leveraging GP-based predictions to infer new candidate points from the input 2D pixels and depth maps. The pipeline utilizes uncertainty estimates to guide the pruning of high-variance predictions, ensuring geometric consistency and enabling the generation of dense point clouds. These densified point clouds provide high-quality initial 3D Gaussians, enhancing reconstruction performance. Extensive experiments conducted on synthetic and real-world datasets across various scales validate the effectiveness and practicality of the proposed framework.

arxiv情報

著者 Zhihao Guo,Jingxuan Su,Shenglin Wang,Jinlong Fan,Jing Zhang,Wei Zhou,Hadi Amirpour,Yunlong Zhao,Liangxiu Han,Peng Wang
発行日 2025-05-13 15:14:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.AI, cs.CV | GP-GS: Gaussian Processes for Enhanced Gaussian Splatting はコメントを受け付けていません

CHD: Coupled Hierarchical Diffusion for Long-Horizon Tasks

要約

拡散ベースのプランナーは、短距離タスクで強力なパフォーマンスを示していますが、しばしば複雑で長期の設定で失敗します。
高レベル(HL)サブゴール選択と低レベル(LL)軌道の生成との間の結合を緩和できなかったことを追跡します。これは、一貫性のない計画とパフォーマンスの低下につながります。
統合拡散プロセス内でHLサブゴールとLL軌道を共同でモデル化するフレームワークである結合階層拡散(CHD)を提案します。
共有分類器は、サンプリングが進行中に自己修正されるように、上流のLLフィードバックを渡します。
このタイトなHL-LLカップリングは、軌道の一貫性を改善し、スケーラブルな長期拡散計画を可能にします。
迷路のナビゲーション、卓上操作、および家庭環境全体の実験では、CHDが一貫してフラットと階層の両方の拡散ベースラインよりも優れていることが示されています。
当社のウェブサイトはhttps://sites.google.com/view/chd2025/homeです

要約(オリジナル)

Diffusion-based planners have shown strong performance in short-horizon tasks but often fail in complex, long-horizon settings. We trace the failure to loose coupling between high-level (HL) sub-goal selection and low-level (LL) trajectory generation, which leads to incoherent plans and degraded performance. We propose Coupled Hierarchical Diffusion (CHD), a framework that models HL sub-goals and LL trajectories jointly within a unified diffusion process. A shared classifier passes LL feedback upstream so that sub-goals self-correct while sampling proceeds. This tight HL-LL coupling improves trajectory coherence and enables scalable long-horizon diffusion planning. Experiments across maze navigation, tabletop manipulation, and household environments show that CHD consistently outperforms both flat and hierarchical diffusion baselines. Our website is: https://sites.google.com/view/chd2025/home

arxiv情報

著者 Ce Hao,Anxing Xiao,Zhiwei Xue,Harold Soh
発行日 2025-05-13 09:28:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | CHD: Coupled Hierarchical Diffusion for Long-Horizon Tasks はコメントを受け付けていません

FLUXSynID: A Framework for Identity-Controlled Synthetic Face Generation with Document and Live Images

要約

合成フェイスデータセットは、プライバシーの懸念、人口統計の不均衡、高い収集コストなど、実際の生体認証データの制限を克服するためにますます使用されています。
ただし、多くの既存の方法は、アイデンティティ属性に対する細粒の制御を欠いており、構造化されたキャプチャ条件下でペアになったアイデンティティ一貫性のある画像を生成できません。
Fluxsynidを紹介します。FluxSynidは、ユーザー定義のID属性分布とペアリングされたドキュメントスタイルおよび信頼できるライブキャプチャ画像を備えた高解像度の合成フェイスデータセットを生成するためのフレームワークです。
Fluxsynidフレームワークを使用して生成されたデータセットは、実際のアイデンティティ分布との調整が改善され、以前の作業と比較してより大きなインターセットの多様性を示しています。
カスタムデータセットを生成するためのFluxSynidフレームワークと、14,889の合成アイデンティティのデータセットとともに、顔認識やモーフィング攻撃検出などの生体認証研究をサポートするために公開されています。

要約(オリジナル)

Synthetic face datasets are increasingly used to overcome the limitations of real-world biometric data, including privacy concerns, demographic imbalance, and high collection costs. However, many existing methods lack fine-grained control over identity attributes and fail to produce paired, identity-consistent images under structured capture conditions. We introduce FLUXSynID, a framework for generating high-resolution synthetic face datasets with user-defined identity attribute distributions and paired document-style and trusted live capture images. The dataset generated using the FLUXSynID framework shows improved alignment with real-world identity distributions and greater inter-set diversity compared to prior work. The FLUXSynID framework for generating custom datasets, along with a dataset of 14,889 synthetic identities, is publicly released to support biometric research, including face recognition and morphing attack detection.

arxiv情報

著者 Raul Ismayilov,Dzemila Sero,Luuk Spreeuwers
発行日 2025-05-13 08:21:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FLUXSynID: A Framework for Identity-Controlled Synthetic Face Generation with Document and Live Images はコメントを受け付けていません

Rethinking Latent Redundancy in Behavior Cloning: An Information Bottleneck Approach for Robot Manipulation

要約

動作クローニング(BC)は、ロボット操作において広く採用されている視覚模倣学習方法です。
現在のBCアプローチは、大規模なデータセットを活用し、追加の視覚的およびテキストモダリティを組み込んで、より多様な情報をキャプチャすることにより、一般化を強化することがよくあります。
ただし、これらの方法は、学習した表現に冗長な情報が含まれているかどうかを見落としており、学習プロセスを導くための強固な理論的基盤がありません。
これらの制限に対処するために、情報理論的視点を採用し、相互情報を導入して、潜在的な表現の冗長性を定量化し、軽減します。
これに基づいて、情報ボトルネック(IB)原則をBCに組み込みます。これにより、タスク関連の機能を維持しながら、無関係な情報を圧縮するための構造化されたフレームワークを提供することにより、冗長性を削減するという考えが拡張されます。
この作業は、IBの一般化可能性をBCに拡張しながら、さまざまな方法、バックボーン、および実験設定にわたる潜在的な表現における冗長性に関する最初の包括的な研究を提示します。
皮質ベンチとリベロのベンチマークの広範な実験と分析は、IBによる大幅なパフォーマンスの改善を示しており、入力データの冗長性を減らし、より実用的なアプリケーションの実用的な価値を強調することの重要性を強調しています。
プロジェクトページ:https://baishuanghao.github.io/bc-ib.github.io。

要約(オリジナル)

Behavior Cloning (BC) is a widely adopted visual imitation learning method in robot manipulation. Current BC approaches often enhance generalization by leveraging large datasets and incorporating additional visual and textual modalities to capture more diverse information. However, these methods overlook whether the learned representations contain redundant information and lack a solid theoretical foundation to guide the learning process. To address these limitations, we adopt an information-theoretic perspective and introduce mutual information to quantify and mitigate redundancy in latent representations. Building on this, we incorporate the Information Bottleneck (IB) principle into BC, which extends the idea of reducing redundancy by providing a structured framework for compressing irrelevant information while preserving task-relevant features. This work presents the first comprehensive study on redundancy in latent representations across various methods, backbones, and experimental settings, while extending the generalizability of the IB to BC. Extensive experiments and analyses on the CortexBench and LIBERO benchmarks demonstrate significant performance improvements with IB, underscoring the importance of reducing input data redundancy and highlighting its practical value for more practical applications. Project Page: https://baishuanghao.github.io/BC-IB.github.io.

arxiv情報

著者 Shuanghao Bai,Wanqi Zhou,Pengxiang Ding,Wei Zhao,Donglin Wang,Badong Chen
発行日 2025-05-13 03:02:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Rethinking Latent Redundancy in Behavior Cloning: An Information Bottleneck Approach for Robot Manipulation はコメントを受け付けていません

Codifying Character Logic in Role-Playing

要約

このペーパーでは、動作の意思決定のための構造化された実行可能機能として文字ロジックを表す新しいアプローチである、ロールプレイングのための成文化されたプロファイルを紹介します。
各プロファイルは、明示的な制御構造(例えば、If-Then-Else)とCheck_ondition(シーン、質問)などの状態チェックの両方を使用して、論理接地されたアサーショントリガーed_Statementsのリストを出力する関数Parse_by_scene(シーン)のセットを定義します。
True、False、または不明としてのLLM。
この明示的な表現は、従来のプロンプトベースのプロファイルよりも3つの重要な利点を提供します。これは、モデルの暗黙的な推論に依存するのではなく、文字ロジックの完全かつ一貫した実行を実施することにより、テキストプロンプトに文字説明を直接追加します。
(2)体系的な検査と行動論理の修正を通じて更新可能性。これは、プロンプトのみのアプローチで追跡またはデバッグすることが困難です。
(3)ロジック内で直接確率的挙動をサポートすることにより、制御可能なランダム性を促進し、促進する微粒子の変動性を可能にします。
これらの利点を検証するために、NLIベースのスコアリングを使用して、グラウンドトゥルースアクションとキャラクター応答を比較するために、ファンダムからキュレーションされた5,141シーンから構築された新しいベンチマークを導入します。
私たちの実験は、持続性、更新可能性、および行動の多様性を改善する上で、成文化されたプロファイルの重要な利点を示しています。
特に、前処理の推論のかなりの部分をオフロードすることにより、成文化されたプロファイルにより、1Bパラメーターモデルでも高品質のロールプレイを実行でき、ロールプレイエージェントのローカル展開のためのスケーラブルで効率的な基盤を提供します。

要約(オリジナル)

This paper introduces Codified Profiles for role-playing, a novel approach that represents character logic as structured, executable functions for behavioral decision-making. Each profile defines a set of functions parse_by_scene(scene) that outputs a list of logic-grounded assertions triggered_statements, using both explicit control structures (e.g., if-then-else) and condition checks like check_condition(scene, question), where each question is a semantically meaningful prompt about the scene (e.g., ‘Is the character in danger?’) discriminated by the role-playing LLM as true, false, or unknown. This explicit representation offers three key advantages over traditional prompt-based profiles, which append character descriptions directly into text prompts: (1) Persistence, by enforcing complete and consistent execution of character logic, rather than relying on the model’s implicit reasoning; (2) Updatability, through systematic inspection and revision of behavioral logic, which is difficult to track or debug in prompt-only approaches; (3) Controllable Randomness, by supporting stochastic behavior directly within the logic, enabling fine-grained variability that prompting alone struggles to achieve. To validate these advantages, we introduce a new benchmark constructed from 83 characters and 5,141 scenes curated from Fandom, using NLI-based scoring to compare character responses against ground-truth actions. Our experiments demonstrate the significant benefits of codified profiles in improving persistence, updatability, and behavioral diversity. Notably, by offloading a significant portion of reasoning to preprocessing, codified profiles enable even 1B-parameter models to perform high-quality role-playing, providing a scalable and efficient foundation for local deployment of role-play agents.

arxiv情報

著者 Letian Peng,Jingbo Shang
発行日 2025-05-13 02:16:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Codifying Character Logic in Role-Playing はコメントを受け付けていません

OnPrem.LLM: A Privacy-Conscious Document Intelligence Toolkit

要約

OnPrem $。$ LLMは、オフラインまたは制限された環境で敏感な非パブリックデータに大規模な言語モデル(LLM)を適用するためのPythonベースのツールキットです。
このシステムは、プライバシーを提供するユースケース向けに設計されており、ドキュメント処理とストレージ、検索の高等発電(RAG)、情報抽出、要約、分類、および最小設定でのプロンプト/出力処理のための事前に構築されたパイプラインを提供します。
onprem $。$ llmは、llama $ cpp、ollama、vllm、hugging hugging face transformersなど、複数のLLMバックエンドをサポートしています。
完全にローカルな実行用に設計されていますが、OnPrem $。$ LLMは、許可されている場合、幅広いクラウドLLMプロバイダーとの統合もサポートし、パフォーマンスとデータコントロールのバランスをとるハイブリッド展開を可能にします。
ノーコードWebインターフェイスは、非技術的なユーザーへのアクセシビリティを拡張します。

要約(オリジナル)

We present OnPrem$.$LLM, a Python-based toolkit for applying large language models (LLMs) to sensitive, non-public data in offline or restricted environments. The system is designed for privacy-preserving use cases and provides prebuilt pipelines for document processing and storage, retrieval-augmented generation (RAG), information extraction, summarization, classification, and prompt/output processing with minimal configuration. OnPrem$.$LLM supports multiple LLM backends — including llama$.$cpp, Ollama, vLLM, and Hugging Face Transformers — with quantized model support, GPU acceleration, and seamless backend switching. Although designed for fully local execution, OnPrem$.$LLM also supports integration with a wide range of cloud LLM providers when permitted, enabling hybrid deployments that balance performance with data control. A no-code web interface extends accessibility to non-technical users.

arxiv情報

著者 Arun S. Maiya
発行日 2025-05-13 02:43:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | OnPrem.LLM: A Privacy-Conscious Document Intelligence Toolkit はコメントを受け付けていません

Survey of Simulators for Aerial Robots: An Overview and In-Depth Systematic Comparisons

要約

非難された航空車両(UAV)の研究は、ハードウェアテストを実施する際の安全性、スケーラビリティ、コスト、および生態学的影響を伴う課題に直面しています。
高忠実度シミュレーターは、新しい知覚と制御アルゴリズムの開発と評価を可能にするために、実際の条件を複製することにより重要なソリューションを提供します。
ただし、利用可能な多数のシミュレーターは、各シミュレーターの制限とカスタマイズの準備に基づいて、どのシミュレーターが特定のユースケースに最適なシミュレーターを決定するかを決定するために重要な課題を提起します。
このペーパーでは、14のシミュレーターの詳細な系統的比較を含む44のUAVシミュレーターの概要を示します。
さらに、研究の努力の効率と安全性を高めることを目的とした、シミュレーターの選択のための一連の決定要因を提示します。

要約(オリジナル)

Uncrewed Aerial Vehicle (UAV) research faces challenges with safety, scalability, costs, and ecological impact when conducting hardware testing. High-fidelity simulators offer a vital solution by replicating real-world conditions to enable the development and evaluation of novel perception and control algorithms. However, the large number of available simulators poses a significant challenge for researchers to determine which simulator best suits their specific use-case, based on each simulator’s limitations and customization readiness. In this paper we present an overview of 44 UAV simulators, including in-depth, systematic comparisons for 14 of the simulators. Additionally, we present a set of decision factors for selection of simulators, aiming to enhance the efficiency and safety of research endeavors.

arxiv情報

著者 Cora A. Dimmig,Giuseppe Silano,Kimberly McGuire,Chiara Gabellieri,Wolfgang Hönig,Joseph Moore,Marin Kobilarov
発行日 2025-05-12 16:17:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Survey of Simulators for Aerial Robots: An Overview and In-Depth Systematic Comparisons はコメントを受け付けていません

Clickbait Detection via Large Language Models

要約

ClickBaitは、クリックスルーレートを上げるための驚くべき、さらにスリリングな見出しでユーザーを誘導することを目的としており、ニュースポータルやソーシャルメディアなど、ほぼすべてのオンラインコンテンツパブリッシャーに浸透しています。
最近、大規模な言語モデル(LLM)が強力な楽器として浮上し、一連のNLPダウンストリームタスクで大きな成功を収めました。
ただし、LLMが高品質のクリックベイト検出システムとして提供できるかどうかはまだわかっていません。
この論文では、いくつかの英語と中国のベンチマークデータセットの少数のショットおよびゼロショットシナリオでのLLMSのパフォーマンスを分析します。
実験結果は、LLMが最先端の深いPLMSメソッドと比較して最良の結果を達成できないことを示しています。
人間の直感とは異なる実験は、LLMSが見出しだけで満足したクリックベイト検出を行うことができないことを実証しました。

要約(オリジナル)

Clickbait, which aims to induce users with some surprising and even thrilling headlines for increasing click-through rates, permeates almost all online content publishers, such as news portals and social media. Recently, Large Language Models (LLMs) have emerged as a powerful instrument and achieved tremendous success in a series of NLP downstream tasks. However, it is not yet known whether LLMs can be served as a high-quality clickbait detection system. In this paper, we analyze the performance of LLMs in the few-shot and zero-shot scenarios on several English and Chinese benchmark datasets. Experimental results show that LLMs cannot achieve the best results compared to the state-of-the-art deep and fine-tuning PLMs methods. Different from human intuition, the experiments demonstrated that LLMs cannot make satisfied clickbait detection just by the headlines.

arxiv情報

著者 Han Wang,Yi Zhu,Ye Wang,Yun Li,Yunhao Yuan,Jipeng Qiang
発行日 2025-05-12 12:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Clickbait Detection via Large Language Models はコメントを受け付けていません

DriveSOTIF: Advancing Perception SOTIF Through Multimodal Large Language Models

要約

人間のドライバーは、自然に運転シナリオを認識し、潜在的な危険を予測し、空間的および因果知能のために本能的に反応する能力を持っています。
ただし、自動運転車はこれらの能力を欠いており、特に複雑で予測不可能な運転条件で、意図した機能(SOTIF)リスクの知覚関連の安全性を効果的に管理する課題につながります。
このギャップに対処するために、知覚関連のSOTIFシナリオをキャプチャするように特別に設計されたカスタマイズされたデータセットで、マルチモーダル言語モデル(MLLMS)を微調整するアプローチを提案します。
モデルベンチマークは、このカスタマイズされたデータセットにより、モデルがこれらの複雑な運転状況をよりよく理解し、応答できることを示しています。
さらに、現実世界のケーススタディでは、提案された方法は、人間のドライバーでさえ困難であると感じる挑戦的なシナリオを正しく処理します。
リアルタイムのパフォーマンステストは、モデルがライブドライビング環境で効率的に動作する可能性をさらに示しています。
このアプローチは、データセット生成パイプラインとともに、自律駆動システムにおけるSOTIF関連のリスクに対する識別、認知、予測、および反応を改善するための大きな約束を示しています。
データセットと情報は、https://github.com/s95huang/drivesotif.gitを利用できます

要約(オリジナル)

Human drivers naturally possess the ability to perceive driving scenarios, predict potential hazards, and react instinctively due to their spatial and causal intelligence, which allows them to perceive, understand, predict, and interact with the 3D world both spatially and temporally. Autonomous vehicles, however, lack these capabilities, leading to challenges in effectively managing perception-related Safety of the Intended Functionality (SOTIF) risks, particularly in complex and unpredictable driving conditions. To address this gap, we propose an approach that fine-tunes multimodal language models (MLLMs) on a customized dataset specifically designed to capture perception-related SOTIF scenarios. Model benchmarking demonstrates that this tailored dataset enables the models to better understand and respond to these complex driving situations. Additionally, in real-world case studies, the proposed method correctly handles challenging scenarios that even human drivers may find difficult. Real-time performance tests further indicate the potential for the models to operate efficiently in live driving environments. This approach, along with the dataset generation pipeline, shows significant promise for improving the identification, cognition, prediction, and reaction to SOTIF-related risks in autonomous driving systems. The dataset and information are available: https://github.com/s95huang/DriveSOTIF.git

arxiv情報

著者 Shucheng Huang,Freda Shi,Chen Sun,Jiaming Zhong,Minghao Ning,Yufeng Yang,Yukun Lu,Hong Wang,Amir Khajepour
発行日 2025-05-11 18:14:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DriveSOTIF: Advancing Perception SOTIF Through Multimodal Large Language Models はコメントを受け付けていません