月別アーカイブ: 2025年3月

Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection

要約 人間は、オブジェクトが条件付けられた物理的知識に基づいて知覚、相互作用、お … 続きを読む

カテゴリー: cs.AI, cs.CV | Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection はコメントを受け付けていません

Tiny Robotics Dataset and Benchmark for Continual Object Detection

要約 モバイルロボット工学のオブジェクトの検出は、自律的なナビゲーションから検査 … 続きを読む

カテゴリー: cs.CV, cs.RO | Tiny Robotics Dataset and Benchmark for Continual Object Detection はコメントを受け付けていません

Human-in-the-loop Reasoning For Traffic Sign Detection: Collaborative Approach Yolo With Video-llava

要約 トラフィックサイン認識(TSR)検出は、自律車両の重要なコンポーネントです … 続きを読む

カテゴリー: cs.CV | Human-in-the-loop Reasoning For Traffic Sign Detection: Collaborative Approach Yolo With Video-llava はコメントを受け付けていません

On the Utility of Equivariance and Symmetry Breaking in Deep Learning Architectures on Point Clouds

要約 このホワイトペーパーでは、さまざまな幾何学的複雑さのさまざまなタスクにわた … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | On the Utility of Equivariance and Symmetry Breaking in Deep Learning Architectures on Point Clouds はコメントを受け付けていません

REGRACE: A Robust and Efficient Graph-based Re-localization Algorithm using Consistency Evaluation

要約 ループ閉鎖は、特に大規模なナビゲーションのコンテキストで、臭気測定のドリフ … 続きを読む

カテゴリー: cs.CV, cs.RO | REGRACE: A Robust and Efficient Graph-based Re-localization Algorithm using Consistency Evaluation はコメントを受け付けていません

Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D Perception

要約 自律運転のための低コストの視覚中心の3D認識システムは、近年大きな進歩を遂 … 続きを読む

カテゴリー: cs.CV | Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D Perception はコメントを受け付けていません

StdGEN: Semantic-Decomposed 3D Character Generation from Single Images

要約 STDGenは、単一の画像からセマンティックに分解された高品質の3D文字を … 続きを読む

カテゴリー: cs.CV | StdGEN: Semantic-Decomposed 3D Character Generation from Single Images はコメントを受け付けていません

CLIP is Strong Enough to Fight Back: Test-time Counterattacks towards Zero-shot Adversarial Robustness of CLIP

要約 画像テキストマッチングタスクでの一般的な使用は、ゼロショットの方法で使用さ … 続きを読む

カテゴリー: cs.CV | CLIP is Strong Enough to Fight Back: Test-time Counterattacks towards Zero-shot Adversarial Robustness of CLIP はコメントを受け付けていません

Reasoning to Attend: Try to Understand How Token Works

要約 現在の大規模なマルチモーダルモデル(LMMS)は、視覚言語モデル(LLAV … 続きを読む

カテゴリー: cs.CV | Reasoning to Attend: Try to Understand How Token Works はコメントを受け付けていません

More than Memes: A Multimodal Topic Modeling Approach to Conspiracy Theories on Telegram

要約 ソーシャルメディアでの(オーディオ)視覚データの増加する有病率に対処し、こ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SI | More than Memes: A Multimodal Topic Modeling Approach to Conspiracy Theories on Telegram はコメントを受け付けていません