cs.CV」カテゴリーアーカイブ

Understanding Long Videos with Multimodal Language Models

要約 大規模言語モデル (LLM) により、最近の LLM ベースのアプローチが … 続きを読む

カテゴリー: cs.CV | Understanding Long Videos with Multimodal Language Models はコメントを受け付けていません

SAMPart3D: Segment Any Part in 3D Objects

要約 3D パーツのセグメンテーションは、3D 認識において重要かつ困難なタスク … 続きを読む

カテゴリー: cs.CV | SAMPart3D: Segment Any Part in 3D Objects はコメントを受け付けていません

Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags

要約 マルチモーダル大規模言語モデル (MLLM) の一般的な視覚的命令追従能力 … 続きを読む

カテゴリー: cs.CL, cs.CV | Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags はコメントを受け付けていません

OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision

要約 命令ガイド付き画像編集方法は、自動的に合成された、または手動で注釈が付けら … 続きを読む

カテゴリー: cs.AI, cs.CV | OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision はコメントを受け付けていません

DLCR: A Generative Data Expansion Framework via Diffusion for Clothes-Changing Person Re-ID

要約 最近示された生成拡散モデルの強みを考慮して、未解決の研究課題は \text … 続きを読む

カテゴリー: cs.CV | DLCR: A Generative Data Expansion Framework via Diffusion for Clothes-Changing Person Re-ID はコメントを受け付けていません

Grounding Video Models to Actions through Goal Conditioned Exploration

要約 大量のインターネット ビデオで事前トレーニングされた大規模なビデオ モデル … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Grounding Video Models to Actions through Goal Conditioned Exploration はコメントを受け付けていません

Learning from Limited and Imperfect Data

要約 ディープ ニューラル ネットワークのトレーニングに使用されるデータセット … 続きを読む

カテゴリー: cs.CV | Learning from Limited and Imperfect Data はコメントを受け付けていません

INQUIRE: A Natural World Text-to-Image Retrieval Benchmark

要約 INQUIRE は、専門家レベルのクエリでマルチモーダルなビジョン言語モデ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR | INQUIRE: A Natural World Text-to-Image Retrieval Benchmark はコメントを受け付けていません

Watermark Anything with Localized Messages

要約 画像の透かし手法は、小さな透かし領域を処理するように調整されていません。 … 続きを読む

カテゴリー: cs.CR, cs.CV | Watermark Anything with Localized Messages はコメントを受け付けていません

Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models

要約 テキストの指示に基づいて画像にオブジェクトを追加することは、セマンティック … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models はコメントを受け付けていません