「cs.CV」カテゴリーアーカイブ

Understanding Long Videos with Multimodal Language Models

投稿日: 2024年11月12日作成者: jarxiv

要約大規模言語モデル (LLM) により、最近の LLM ベースのアプローチが … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SAMPart3D: Segment Any Part in 3D Objects

投稿日: 2024年11月12日作成者: jarxiv

要約 3D パーツのセグメンテーションは、3D 認識において重要かつ困難なタスク … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags

投稿日: 2024年11月12日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) の一般的な視覚的命令追従能力 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision

投稿日: 2024年11月12日作成者: jarxiv

要約命令ガイド付き画像編集方法は、自動的に合成された、または手動で注釈が付けら … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

DLCR: A Generative Data Expansion Framework via Diffusion for Clothes-Changing Person Re-ID

投稿日: 2024年11月12日作成者: jarxiv

要約最近示された生成拡散モデルの強みを考慮して、未解決の研究課題は \text … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Grounding Video Models to Actions through Goal Conditioned Exploration

投稿日: 2024年11月12日作成者: jarxiv

要約大量のインターネットビデオで事前トレーニングされた大規模なビデオモデル … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Learning from Limited and Imperfect Data

投稿日: 2024年11月12日作成者: jarxiv

要約ディープニューラルネットワークのトレーニングに使用されるデータセット … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

INQUIRE: A Natural World Text-to-Image Retrieval Benchmark

投稿日: 2024年11月12日作成者: jarxiv

要約 INQUIRE は、専門家レベルのクエリでマルチモーダルなビジョン言語モデ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR | コメントを受け付けていません

Watermark Anything with Localized Messages

投稿日: 2024年11月12日作成者: jarxiv

要約画像の透かし手法は、小さな透かし領域を処理するように調整されていません。 … 続きを読む →

カテゴリー: cs.CR, cs.CV | コメントを受け付けていません

Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models

投稿日: 2024年11月12日作成者: jarxiv

要約テキストの指示に基づいて画像にオブジェクトを追加することは、セマンティック … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Understanding Long Videos with Multimodal Language Models

SAMPart3D: Segment Any Part in 3D Objects

Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags

OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision

DLCR: A Generative Data Expansion Framework via Diffusion for Clothes-Changing Person Re-ID

Grounding Video Models to Actions through Goal Conditioned Exploration

Learning from Limited and Imperfect Data

INQUIRE: A Natural World Text-to-Image Retrieval Benchmark

Watermark Anything with Localized Messages

Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー