月別アーカイブ: 2025年3月

Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization

投稿日: 2025年3月26日作成者: jarxiv

要約視覚的に魅力的な画像を生成することは、最新のテキストからイメージまでの生成 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Attention IoU: Examining Biases in CelebA using Attention Maps

投稿日: 2025年3月26日作成者: jarxiv

要約コンピュータービジョンモデルは、幅広いデータセットとタスクにわたってバイア … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Towards Online Multi-Modal Social Interaction Understanding

投稿日: 2025年3月26日作成者: jarxiv

要約マルチモーダルソーシャルインタラクション理解（MMSI）は、人間とロボット … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs

投稿日: 2025年3月26日作成者: jarxiv

要約 1時間のビデオでの情報検索は、特に目的の情報がフレームの小さなサブセット内 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation

投稿日: 2025年3月26日作成者: jarxiv

要約参照ビデオオブジェクトセグメンテーション（RVO）は、自然言語表現に依存し … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Unpaired Translation of Chest X-ray Images for Lung Opacity Diagnosis via Adaptive Activation Masks and Cross-Domain Alignment

投稿日: 2025年3月26日作成者: jarxiv

要約胸部X線X線写真（CXR）は、心肺疾患の診断と監視において極めて重要な役割 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

GENIUS: A Generative Framework for Universal Multimodal Search

投稿日: 2025年3月26日作成者: jarxiv

要約生成検索は、クエリに基づいてターゲットデータの識別子（ID）を生成する情報 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG | コメントを受け付けていません

Mask$^2$DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

投稿日: 2025年3月26日作成者: jarxiv

要約 SORAは、シングルシーンビデオ生成において、拡散トランス（DIT）アーキ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Visuo-Tactile Object Pose Estimation for a Multi-Finger Robot Hand with Low-Resolution In-Hand Tactile Sensing

投稿日: 2025年3月26日作成者: jarxiv

要約把握されたオブジェクトの正確な3Dポーズ推定は、ロボットがアセンブリまたは … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

MambaVision: A Hybrid Mamba-Transformer Vision Backbone

投稿日: 2025年3月26日作成者: jarxiv

要約視覚アプリケーションに合わせて特別に調整された、新しいハイブリッドマンバト … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年3月

Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization

Attention IoU: Examining Biases in CelebA using Attention Maps

Towards Online Multi-Modal Social Interaction Understanding

FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs

SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation

Unpaired Translation of Chest X-ray Images for Lung Opacity Diagnosis via Adaptive Activation Masks and Cross-Domain Alignment

GENIUS: A Generative Framework for Universal Multimodal Search

Mask$^2$DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

Visuo-Tactile Object Pose Estimation for a Multi-Finger Robot Hand with Low-Resolution In-Hand Tactile Sensing

MambaVision: A Hybrid Mamba-Transformer Vision Backbone

最近の投稿

最近のコメント

アーカイブ

カテゴリー