I.2.10」カテゴリーアーカイブ

TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning

要約 モデルがテレビ クリップなどの複雑でマルチモーダルなコンテンツを理解するこ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 | TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning はコメントを受け付けていません

Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress

要約 模倣学習によってトレーニングされたロボットの行動ポリシーは、トレーニング … 続きを読む

カテゴリー: cs.RO, I.2.10 | Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress はコメントを受け付けていません

Individuation in Neural Models with and without Visual Grounding

要約 個性情報のエンコードに関して、言語と視覚のモデルである CLIP と 2 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.10 | Individuation in Neural Models with and without Visual Grounding はコメントを受け付けていません

Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models

要約 自動運転における共変量シフト問題に対処するために、潜在空間生成世界モデルの … 続きを読む

カテゴリー: (Primary), 68T45, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY, I.2.10 | Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models はコメントを受け付けていません

Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models

要約 自動運転における共変量シフト問題に対処するために、潜在空間生成世界モデルの … 続きを読む

カテゴリー: (Primary), 68T45, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY, I.2.10 | Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models はコメントを受け付けていません

Towards Global Localization using Multi-Modal Object-Instance Re-Identification

要約 再識別 (ReID) はコンピュータ ビジョンにおける重要な課題であり、主 … 続きを読む

カテゴリー: 68T40, cs.CV, cs.RO, I.2.10 | Towards Global Localization using Multi-Modal Object-Instance Re-Identification はコメントを受け付けていません

Towards Localizing Structural Elements: Merging Geometrical Detection with Semantic Verification in RGB-D Data

要約 RGB-D カメラは、シーンの理解、マップの再構築、位置特定などのさまざま … 続きを読む

カテゴリー: cs.CV, cs.RO, I.2.10 | Towards Localizing Structural Elements: Merging Geometrical Detection with Semantic Verification in RGB-D Data はコメントを受け付けていません

StratXplore: Strategic Novelty-seeking and Instruction-aligned Exploration for Vision and Language Navigation

要約 身体的ナビゲーションでは、ロボットが与えられたタスクに基づいて環境を理解し … 続きを読む

カテゴリー: cs.RO, I.2.10 | StratXplore: Strategic Novelty-seeking and Instruction-aligned Exploration for Vision and Language Navigation はコメントを受け付けていません

Spatially-Aware Speaker for Vision-and-Language Navigation Instruction Generation

要約 身体化型 AI は、人間の言語の命令を \textit{理解}して実行し、 … 続きを読む

カテゴリー: cs.CL, I.2.10 | Spatially-Aware Speaker for Vision-and-Language Navigation Instruction Generation はコメントを受け付けていません

SITransformer: Shared Information-Guided Transformer for Extreme Multimodal Summarization

要約 Extreme Multimodal Summarization with … 続きを読む

カテゴリー: cs.CV, I.2.10 | SITransformer: Shared Information-Guided Transformer for Extreme Multimodal Summarization はコメントを受け付けていません