「cs.CV」カテゴリーアーカイブ

EgoMimic: Scaling Imitation Learning via Egocentric Video

投稿日: 2024年11月1日作成者: jarxiv

要約模倣学習に必要な実証データの規模と多様性は、大きな課題です。私たちは、人 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

URAvatar: Universal Relightable Gaussian Codec Avatars

投稿日: 2024年11月1日作成者: jarxiv

要約私たちは、未知の照明を使用した電話スキャンからフォトリアリスティックで再照 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

Aligning Audio-Visual Joint Representations with an Agentic Workflow

投稿日: 2024年11月1日作成者: jarxiv

要約ビジュアルコンテンツと付随するオーディオ信号は、オーディオビジュアル ( … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Robotic State Recognition with Image-to-Text Retrieval Task of Pre-Trained Vision-Language Model and Black-Box Optimization

投稿日: 2024年10月31日作成者: jarxiv

要約日常生活支援や警備業務を行うロボットにとって、ドアの開閉や照明の点灯・消灯 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

ES-Gaussian: Gaussian Splatting Mapping via Error Space-Based Gaussian Completion

投稿日: 2024年10月31日作成者: jarxiv

要約ロボットの効果的なナビゲーションとインタラクションには、正確かつ手頃な価格 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

DexGraspNet 2.0: Learning Generative Dexterous Grasping in Large-scale Synthetic Cluttered Scenes

投稿日: 2024年10月31日作成者: jarxiv

要約データが不足しているため、乱雑なシーンを把握することは、器用な手にとって依 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Neural Attention Field: Emerging Point Relevance in 3D Scenes for One-Shot Dexterous Grasping

投稿日: 2024年10月31日作成者: jarxiv

要約器用な把握を、オブジェクトとコンテキストのバリエーションのある新しいシーン … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

S3PT: Scene Semantics and Structure Guided Clustering to Boost Self-Supervised Pre-Training for Autonomous Driving

投稿日: 2024年10月31日作成者: jarxiv

要約 DINO や Cribo などの最近の自己教師ありクラスタリングベースの … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Improving Hateful Meme Detection through Retrieval-Guided Contrastive Learning

投稿日: 2024年10月31日作成者: jarxiv

要約憎しみに満ちたミームがインターネット上で重大な懸念事項として浮上しています … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

VisAidMath: Benchmarking Visual-Aided Mathematical Reasoning

投稿日: 2024年10月31日作成者: jarxiv

要約大規模言語モデル (LLM) および大規模マルチモーダルモデル (LMM … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

EgoMimic: Scaling Imitation Learning via Egocentric Video

URAvatar: Universal Relightable Gaussian Codec Avatars

Aligning Audio-Visual Joint Representations with an Agentic Workflow

Robotic State Recognition with Image-to-Text Retrieval Task of Pre-Trained Vision-Language Model and Black-Box Optimization

ES-Gaussian: Gaussian Splatting Mapping via Error Space-Based Gaussian Completion

DexGraspNet 2.0: Learning Generative Dexterous Grasping in Large-scale Synthetic Cluttered Scenes

Neural Attention Field: Emerging Point Relevance in 3D Scenes for One-Shot Dexterous Grasping

S3PT: Scene Semantics and Structure Guided Clustering to Boost Self-Supervised Pre-Training for Autonomous Driving

Improving Hateful Meme Detection through Retrieval-Guided Contrastive Learning

VisAidMath: Benchmarking Visual-Aided Mathematical Reasoning

最近の投稿

最近のコメント

アーカイブ

カテゴリー