-
最近の投稿
- Pay Attention to the Robustness of Chinese Minority Language Models! Syllable-level Textual Adversarial Attack on Tibetan Script
- Time-Reversal Provides Unsupervised Feedback to LLMs
- STRIDE: Single-video based Temporally Continuous Occlusion-Robust 3D Pose Estimation
- On Privacy, Security, and Trustworthiness in Distributed Wireless Large AI Models (WLAM)
- Sibyl: Empowering Empathetic Dialogue Generation in Large Language Models via Sensible and Visionary Commonsense Inference
-
最近のコメント
表示できるコメントはありません。 cs.AI (30454) cs.CL (23013) cs.CR (2371) cs.CV (36829) cs.LG (35320) cs.RO (17734) cs.SY (2729) eess.IV (4472) eess.SY (2723) stat.ML (4702)
「I.2.10」カテゴリーアーカイブ
Towards Global Localization using Multi-Modal Object-Instance Re-Identification
要約 再識別 (ReID) はコンピュータ ビジョンにおける重要な課題であり、主 … 続きを読む
Towards Localizing Structural Elements: Merging Geometrical Detection with Semantic Verification in RGB-D Data
要約 RGB-D カメラは、シーンの理解、マップの再構築、位置特定などのさまざま … 続きを読む
StratXplore: Strategic Novelty-seeking and Instruction-aligned Exploration for Vision and Language Navigation
要約 身体的ナビゲーションでは、ロボットが与えられたタスクに基づいて環境を理解し … 続きを読む
Spatially-Aware Speaker for Vision-and-Language Navigation Instruction Generation
要約 身体化型 AI は、人間の言語の命令を \textit{理解}して実行し、 … 続きを読む
SITransformer: Shared Information-Guided Transformer for Extreme Multimodal Summarization
要約 Extreme Multimodal Summarization with … 続きを読む
SITransformer: Shared Information-Guided Transformer for Extreme Multimodal Summarization
要約 Extreme Multimodal Summarization with … 続きを読む
3D Adaptive Structural Convolution Network for Domain-Invariant Point Cloud Recognition
要約 自動運転車の点群データ認識にディープラーニング ネットワークを適応させるこ … 続きを読む
Beyond Few-shot Object Detection: A Detailed Survey
要約 物体検出は、画像やビデオ内の特定の物体を正確に識別して位置を特定することに … 続きを読む
VALE: A Multimodal Visual and Language Explanation Framework for Image Classifiers using eXplainable AI and Language Models
要約 ディープ ニューラル ネットワーク (DNN) は、タスクの自動化を可能に … 続きを読む