「cs.CV」カテゴリーアーカイブ

SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation

投稿日: 2024年8月19日作成者: jarxiv

要約画像のセグメンテーションは視覚の理解において重要な役割を果たします。最近 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

投稿日: 2024年8月19日作成者: jarxiv

要約このレポートでは、大規模マルチモーダルモデル (LMM) を開発するため … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Beyond Full Label: Single-Point Prompt for Infrared Small Target Label Generation

投稿日: 2024年8月19日作成者: jarxiv

要約この研究では、赤外線小型ターゲットラベル生成 (IRSTLG) のための … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance

投稿日: 2024年8月19日作成者: jarxiv

要約モーション豊富で時間的に一貫したビデオを合成することは、特に長時間を扱う場 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OC3D: Weakly Supervised Outdoor 3D Object Detection with Only Coarse Click Annotation

投稿日: 2024年8月19日作成者: jarxiv

要約 LiDAR ベースの屋外 3D 物体検出は広く注目を集めています。ただし … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

WATonoBus: Field-Tested All-Weather Autonomous Shuttle Technology

投稿日: 2024年8月16日作成者: jarxiv

要約全天候型の自動運転車の運行には、認識や意思決定から経路計画や制御に至るまで … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Lane Graph as Path: Continuity-preserving Path-wise Modeling for Online Lane Graph Construction

投稿日: 2024年8月16日作成者: jarxiv

要約オンラインレーングラフの構築は、自動運転において有望ではありますが、困 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

GOReloc: Graph-based Object-Level Relocalization for Visual SLAM

投稿日: 2024年8月16日作成者: jarxiv

要約この記事では、ロボットシステムをオブジェクトレベルで再局所化するための … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning

投稿日: 2024年8月16日作成者: jarxiv

要約手術ビデオのセグメンテーションは、コンピュータ支援手術における重要なタスク … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO, eess.IV | コメントを受け付けていません

DM2RM: Dual-Mode Multimodal Ranking for Target Objects and Receptacles Based on Open-Vocabulary Instructions

投稿日: 2024年8月16日作成者: jarxiv

要約この研究では、オープンボキャブラリーの指示に従って、日用品を指定された家具 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

Beyond Full Label: Single-Point Prompt for Infrared Small Target Label Generation

FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance

OC3D: Weakly Supervised Outdoor 3D Object Detection with Only Coarse Click Annotation

WATonoBus: Field-Tested All-Weather Autonomous Shuttle Technology

Lane Graph as Path: Continuity-preserving Path-wise Modeling for Online Lane Graph Construction

GOReloc: Graph-based Object-Level Relocalization for Visual SLAM

Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning

DM2RM: Dual-Mode Multimodal Ranking for Target Objects and Receptacles Based on Open-Vocabulary Instructions

最近の投稿

最近のコメント

アーカイブ

カテゴリー