「cs.CV」カテゴリーアーカイブ

Satellite Imagery and AI: A New Era in Ocean Conservation, from Research to Deployment and Impact (Version. 2.0)

投稿日: 2025年5月30日作成者: jarxiv

要約違法で、報告されていない、規制されていない（IUU）釣りは、海洋生息地に対 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Skin Lesion Phenotyping via Nested Multi-modal Contrastive Learning

投稿日: 2025年5月30日作成者: jarxiv

要約画像とメタデータの間の複雑な関係を捉える新しいネストされたコントラスト学習 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views

投稿日: 2025年5月30日作成者: jarxiv

要約非調整された画像コレクションからの新しいビュー合成のためのフィードフォワー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FMG-Det: Foundation Model Guided Robust Object Detection

投稿日: 2025年5月30日作成者: jarxiv

要約オブジェクトの境界をラベル付けする際の固有の主観性のため、オブジェクト検出 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PixelThink: Towards Efficient Chain-of-Pixel Reasoning

投稿日: 2025年5月30日作成者: jarxiv

要約既存の推論セグメンテーションアプローチは、通常、画像テキストペアと対応する … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

投稿日: 2025年5月30日作成者: jarxiv

要約フィードフォワード3Dガウススプラッティング（3DGS）モデルは最近、新し … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

How Animals Dance (When You’re Not Looking)

投稿日: 2025年5月30日作成者: jarxiv

要約音楽を同期し、振り付け認識アニマルダンスビデオを生成するためのキーフレーム … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

投稿日: 2025年5月30日作成者: jarxiv

要約基礎モデルと大規模な言語モデル（LLMS）の急速な進歩は、ミトリモーダル入 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

LayerPeeler: Autoregressive Peeling for Layer-wise Image Vectorization

投稿日: 2025年5月30日作成者: jarxiv

要約画像ベクトル化は、ラスター画像をベクターグラフィックスに変換する強力な手法 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

MAGREF: Masked Guidance for Any-Reference Video Generation

投稿日: 2025年5月30日作成者: jarxiv

要約ビデオ生成は、深い生成モデル、特に拡散ベースのアプローチの出現に大きな進歩 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Satellite Imagery and AI: A New Era in Ocean Conservation, from Research to Deployment and Impact (Version. 2.0)

Skin Lesion Phenotyping via Nested Multi-modal Contrastive Learning

AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views

FMG-Det: Foundation Model Guided Robust Object Detection

PixelThink: Towards Efficient Chain-of-Pixel Reasoning

ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

How Animals Dance (When You’re Not Looking)

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

LayerPeeler: Autoregressive Peeling for Layer-wise Image Vectorization

MAGREF: Masked Guidance for Any-Reference Video Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー