cs.CV」カテゴリーアーカイブ

Learning Visual Generative Priors without Text

要約 テキストから画像への (T2I) モデルは、ビジュアル生成の先行技術として … 続きを読む

カテゴリー: cs.CV | Learning Visual Generative Priors without Text はコメントを受け付けていません

Test-time Correction with Human Feedback: An Online 3D Detection System via Visual Prompting

要約 この論文では、導入された自動運転システムの安全性を保証するために、人間のフ … 続きを読む

カテゴリー: cs.CV | Test-time Correction with Human Feedback: An Online 3D Detection System via Visual Prompting はコメントを受け付けていません

BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

要約 この文書では、テキストと視覚モダリティを統合する統合アーキテクチャを備えた … 続きを読む

カテゴリー: cs.CV | BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities はコメントを受け付けていません

From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos

要約 オブジェクトやシーンの 3 次元 (3D) 理解は、人間が世界と対話する能 … 続きを読む

カテゴリー: cs.CV, cs.LG | From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos はコメントを受け付けていません

PETALface: Parameter Efficient Transfer Learning for Low-resolution Face Recognition

要約 大規模なデータセットでの事前トレーニングとマージンベースの損失関数の利用は … 続きを読む

カテゴリー: cs.CV | PETALface: Parameter Efficient Transfer Learning for Low-resolution Face Recognition はコメントを受け付けていません

From Slow Bidirectional to Fast Causal Video Generators

要約 現在のビデオ拡散モデルは、優れた生成品質を実現していますが、双方向の注意の … 続きを読む

カテゴリー: cs.CV | From Slow Bidirectional to Fast Causal Video Generators はコメントを受け付けていません

UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

要約 さまざまな画像生成および編集タスクに対処するために設計された統合フレームワ … 続きを読む

カテゴリー: cs.CV | UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics はコメントを受け付けていません

Video Motion Transfer with Diffusion Transformers

要約 私たちは、参照ビデオのモーションを新しく合成されたビデオに転送する方法であ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Video Motion Transfer with Diffusion Transformers はコメントを受け付けていません

Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets

要約 一般に、ターゲットの下流タスクでデータセットを収集することによって大規模な … 続きを読む

カテゴリー: cs.CV, cs.LG | Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets はコメントを受け付けていません

VP-MEL: Visual Prompts Guided Multimodal Entity Linking

要約 マルチモーダル エンティティ リンク (MEL) は、情報検索の分野で広く … 続きを読む

カテゴリー: cs.CL, cs.CV | VP-MEL: Visual Prompts Guided Multimodal Entity Linking はコメントを受け付けていません