月別アーカイブ: 2024年9月

InterNet: Unsupervised Cross-modal Homography Estimation Based on Interleaved Modality Transfer and Self-supervised Homography Prediction

要約 我々は、インターリーブモダリティ転送と自己教師付きホモグラフィー予測に基づ … 続きを読む

カテゴリー: cs.CV | InterNet: Unsupervised Cross-modal Homography Estimation Based on Interleaved Modality Transfer and Self-supervised Homography Prediction はコメントを受け付けていません

PhoCoLens: Photorealistic and Consistent Reconstruction in Lensless Imaging

要約 レンズレスカメラは、従来のレンズベースのシステムと比較して、サイズ、重量、 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | PhoCoLens: Photorealistic and Consistent Reconstruction in Lensless Imaging はコメントを受け付けていません

Disentangled Clothed Avatar Generation from Text Descriptions

要約 本稿では、人体と衣服を別々に生成し、生成されたアバター上で高品質なアニメー … 続きを読む

カテゴリー: cs.CV | Disentangled Clothed Avatar Generation from Text Descriptions はコメントを受け付けていません

Valeo4Cast: A Modular Approach to End-to-End Forecasting

要約 動き予測は、歩行者、車両、信号機などの周囲のエージェントの将来の軌道を予測 … 続きを読む

カテゴリー: cs.CV, cs.RO | Valeo4Cast: A Modular Approach to End-to-End Forecasting はコメントを受け付けていません

Synthesizing Environment-Specific People in Photographs

要約 我々は、入力写真に描かれたシーンに意味的に適切な服を着た人物のフォトリアリ … 続きを読む

カテゴリー: cs.CV | Synthesizing Environment-Specific People in Photographs はコメントを受け付けていません

Transferring disentangled representations: bridging the gap between synthetic and real images

要約 データ生成メカニズムの基本構造を分離する、意味のある効率的な表現を開発する … 続きを読む

カテゴリー: cs.AI, cs.CV | Transferring disentangled representations: bridging the gap between synthetic and real images はコメントを受け付けていません

ReliOcc: Towards Reliable Semantic Occupancy Prediction via Uncertainty Learning

要約 視覚中心のセマンティック占有予測は自動運転において重要な役割を果たしており … 続きを読む

カテゴリー: cs.CV, cs.RO | ReliOcc: Towards Reliable Semantic Occupancy Prediction via Uncertainty Learning はコメントを受け付けていません

Exploring Event-based Human Pose Estimation with 3D Event Representations

要約 人間の姿勢推定は、コンピューター ビジョンにおける基本的かつ魅力的なタスク … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | Exploring Event-based Human Pose Estimation with 3D Event Representations はコメントを受け付けていません

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

要約 GPT-4o は、多様な感情やトーンの音声会話を可能にするオムニモーダル … 続きを読む

カテゴリー: cs.CL, cs.CV | EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions はコメントを受け付けていません

IFCap: Image-like Retrieval and Frequency-based Entity Filtering for Zero-shot Captioning

要約 画像キャプションの最近の進歩により、画像とテキストのペアのデータの制限を克 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | IFCap: Image-like Retrieval and Frequency-based Entity Filtering for Zero-shot Captioning はコメントを受け付けていません