「cs.CV」カテゴリーアーカイブ

Cross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image Segmentation

投稿日: 2024年8月15日作成者: jarxiv

要約参照セグメンテーションは、自然言語表現に関連するターゲットオブジェクトを … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

3D Gaussian Editing with A Single Image

投稿日: 2024年8月15日作成者: jarxiv

要約現実世界からキャプチャされた 3D シーンのモデリングと操作は、さまざまな … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

DifuzCam: Replacing Camera Lens with a Mask and a Diffusion Model

投稿日: 2024年8月15日作成者: jarxiv

要約フラットなレンズレスカメラ設計により、カメラのサイズと重量が大幅に削減され … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

On the Utility of 3D Hand Poses for Action Recognition

投稿日: 2024年8月15日作成者: jarxiv

要約 3D ハンドポーズは、動作認識のためのまだ研究されていないモダリティです。 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark

投稿日: 2024年8月15日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) の開発により、数学的問題に関 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

R2Human: Real-Time 3D Human Appearance Rendering from a Single Image

投稿日: 2024年8月15日作成者: jarxiv

要約単一の画像から 3D 人間の外観をリアルタイムでレンダリングすることは、ホ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GS-Pose: Generalizable Segmentation-based 6D Object Pose Estimation with 3D Gaussian Splatting

投稿日: 2024年8月15日作成者: jarxiv

要約この論文では、新しいオブジェクトの 6D 姿勢を位置特定および推定するため … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Sonic: Fast and Transferable Data Poisoning on Clustering Algorithms

投稿日: 2024年8月15日作成者: jarxiv

要約クラスタリングアルゴリズムに対するデータポイズニング攻撃はあまり注目さ … 続きを読む →

カテゴリー: cs.CR, cs.CV, cs.LG | コメントを受け付けていません

Disentangled Representation Learning with Transmitted Information Bottleneck

投稿日: 2024年8月15日作成者: jarxiv

要約生データからタスク関連情報のみをエンコードすること、つまり、もつれを解いた … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic Segmentation

投稿日: 2024年8月15日作成者: jarxiv

要約 Transformer を超えて、Transformer のパフォーマンス … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Cross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image Segmentation

3D Gaussian Editing with A Single Image

DifuzCam: Replacing Camera Lens with a Mask and a Diffusion Model

On the Utility of 3D Hand Poses for Action Recognition

MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark

R2Human: Real-Time 3D Human Appearance Rendering from a Single Image

GS-Pose: Generalizable Segmentation-based 6D Object Pose Estimation with 3D Gaussian Splatting

Sonic: Fast and Transferable Data Poisoning on Clustering Algorithms

Disentangled Representation Learning with Transmitted Information Bottleneck

MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic Segmentation

最近の投稿

最近のコメント

アーカイブ

カテゴリー