「cs.CV」カテゴリーアーカイブ

Learning Visual Generative Priors without Text

投稿日: 2024年12月11日作成者: jarxiv

要約テキストから画像への (T2I) モデルは、ビジュアル生成の先行技術として … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Test-time Correction with Human Feedback: An Online 3D Detection System via Visual Prompting

投稿日: 2024年12月11日作成者: jarxiv

要約この論文では、導入された自動運転システムの安全性を保証するために、人間のフ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

投稿日: 2024年12月11日作成者: jarxiv

要約この文書では、テキストと視覚モダリティを統合する統合アーキテクチャを備えた … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos

投稿日: 2024年12月11日作成者: jarxiv

要約オブジェクトやシーンの 3 次元 (3D) 理解は、人間が世界と対話する能 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

PETALface: Parameter Efficient Transfer Learning for Low-resolution Face Recognition

投稿日: 2024年12月11日作成者: jarxiv

要約大規模なデータセットでの事前トレーニングとマージンベースの損失関数の利用は … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

From Slow Bidirectional to Fast Causal Video Generators

投稿日: 2024年12月11日作成者: jarxiv

要約現在のビデオ拡散モデルは、優れた生成品質を実現していますが、双方向の注意の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

投稿日: 2024年12月11日作成者: jarxiv

要約さまざまな画像生成および編集タスクに対処するために設計された統合フレームワ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Video Motion Transfer with Diffusion Transformers

投稿日: 2024年12月11日作成者: jarxiv

要約私たちは、参照ビデオのモーションを新しく合成されたビデオに転送する方法であ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets

投稿日: 2024年12月11日作成者: jarxiv

要約一般に、ターゲットの下流タスクでデータセットを収集することによって大規模な … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

VP-MEL: Visual Prompts Guided Multimodal Entity Linking

投稿日: 2024年12月11日作成者: jarxiv

要約マルチモーダルエンティティリンク (MEL) は、情報検索の分野で広く … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Learning Visual Generative Priors without Text

Test-time Correction with Human Feedback: An Online 3D Detection System via Visual Prompting

BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos

PETALface: Parameter Efficient Transfer Learning for Low-resolution Face Recognition

From Slow Bidirectional to Fast Causal Video Generators

UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

Video Motion Transfer with Diffusion Transformers

Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets

VP-MEL: Visual Prompts Guided Multimodal Entity Linking

最近の投稿

最近のコメント

アーカイブ

カテゴリー