「cs.CV」カテゴリーアーカイブ

Emotion-Guided Image to Music Generation

投稿日: 2024年10月30日作成者: jarxiv

要約画像から音楽を生成すると、写真スライドショー、ソーシャルメディアエクス … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.IV | コメントを受け付けていません

Multi-Object 3D Grounding with Dynamic Modules and Language-Informed Spatial Attention

投稿日: 2024年10月30日作成者: jarxiv

要約マルチオブジェクト 3D グラウンディングには、点群からの特定のクエリフ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Effective Guidance for Model Attention with Simple Yes-no Annotations

投稿日: 2024年10月30日作成者: jarxiv

要約最新の深層学習モデルは、多くの場合、無関係な領域に焦点を当てて予測を行うた … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.HC | コメントを受け付けていません

Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

投稿日: 2024年10月30日作成者: jarxiv

要約エンドツーエンドの自動運転は、大規模なデータを使用した強力な計画能力を実証 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Natural Language Inference Improves Compositionality in Vision-Language Models

投稿日: 2024年10月30日作成者: jarxiv

要約視覚言語モデル (VLM) の構成推論は、オブジェクト、属性、空間関係を関 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Multi-Class Textual-Inversion Secretly Yields a Semantic-Agnostic Classifier

投稿日: 2024年10月30日作成者: jarxiv

要約 CLIP などの大規模な事前トレーニング済み視覚言語モデルの出現により、即 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Dataset

投稿日: 2024年10月30日作成者: jarxiv

要約視覚表現の事前トレーニングにより、ロボットの学習効率が向上しました。大規 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Task Vectors are Cross-Modal

投稿日: 2024年10月30日作成者: jarxiv

要約私たちは、視覚と言語モデル (VLM) の内部表現と、VLM がタスク表現 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Local Policies Enable Zero-shot Long-horizon Manipulation

投稿日: 2024年10月30日作成者: jarxiv

要約ロボット操作用の Sim2real は、複雑な接触をシミュレートし、現実的 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Enhancing Learned Image Compression via Cross Window-based Attention

投稿日: 2024年10月30日作成者: jarxiv

要約近年、学習された画像圧縮方法は、従来の画像圧縮方法と比較して優れたレート歪 … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Emotion-Guided Image to Music Generation

Multi-Object 3D Grounding with Dynamic Modules and Language-Informed Spatial Attention

Effective Guidance for Model Attention with Simple Yes-no Annotations

Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

Natural Language Inference Improves Compositionality in Vision-Language Models

Multi-Class Textual-Inversion Secretly Yields a Semantic-Agnostic Classifier

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Dataset

Task Vectors are Cross-Modal

Local Policies Enable Zero-shot Long-horizon Manipulation

Enhancing Learned Image Compression via Cross Window-based Attention

最近の投稿

最近のコメント

アーカイブ

カテゴリー