cs.CV」カテゴリーアーカイブ

Cross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image Segmentation

要約 参照セグメンテーションは、自然言語表現に関連するターゲット オブジェクトを … 続きを読む

カテゴリー: cs.AI, cs.CV | Cross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image Segmentation はコメントを受け付けていません

3D Gaussian Editing with A Single Image

要約 現実世界からキャプチャされた 3D シーンのモデリングと操作は、さまざまな … 続きを読む

カテゴリー: cs.CV, cs.MM | 3D Gaussian Editing with A Single Image はコメントを受け付けていません

DifuzCam: Replacing Camera Lens with a Mask and a Diffusion Model

要約 フラットなレンズレスカメラ設計により、カメラのサイズと重量が大幅に削減され … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | DifuzCam: Replacing Camera Lens with a Mask and a Diffusion Model はコメントを受け付けていません

On the Utility of 3D Hand Poses for Action Recognition

要約 3D ハンドポーズは、動作認識のためのまだ研究されていないモダリティです。 … 続きを読む

カテゴリー: cs.CV, cs.LG | On the Utility of 3D Hand Poses for Action Recognition はコメントを受け付けていません

MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark

要約 マルチモーダル大規模言語モデル (MLLM) の開発により、数学的問題に関 … 続きを読む

カテゴリー: cs.CL, cs.CV | MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark はコメントを受け付けていません

R2Human: Real-Time 3D Human Appearance Rendering from a Single Image

要約 単一の画像から 3D 人間の外観をリアルタイムでレンダリングすることは、ホ … 続きを読む

カテゴリー: cs.CV | R2Human: Real-Time 3D Human Appearance Rendering from a Single Image はコメントを受け付けていません

GS-Pose: Generalizable Segmentation-based 6D Object Pose Estimation with 3D Gaussian Splatting

要約 この論文では、新しいオブジェクトの 6D 姿勢を位置特定および推定するため … 続きを読む

カテゴリー: cs.CV | GS-Pose: Generalizable Segmentation-based 6D Object Pose Estimation with 3D Gaussian Splatting はコメントを受け付けていません

Sonic: Fast and Transferable Data Poisoning on Clustering Algorithms

要約 クラスタリング アルゴリズムに対するデータ ポイズニング攻撃はあまり注目さ … 続きを読む

カテゴリー: cs.CR, cs.CV, cs.LG | Sonic: Fast and Transferable Data Poisoning on Clustering Algorithms はコメントを受け付けていません

Disentangled Representation Learning with Transmitted Information Bottleneck

要約 生データからタスク関連情報のみをエンコードすること、つまり、もつれを解いた … 続きを読む

カテゴリー: cs.CV, cs.LG | Disentangled Representation Learning with Transmitted Information Bottleneck はコメントを受け付けていません

MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic Segmentation

要約 Transformer を超えて、Transformer のパフォーマンス … 続きを読む

カテゴリー: cs.AI, cs.CV | MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic Segmentation はコメントを受け付けていません