cs.CV」カテゴリーアーカイブ

Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding

要約 マルチモーダル大手言語モデル(MLLMS)の急速な進歩は、さまざまなマルチ … 続きを読む

カテゴリー: cs.CL, cs.CV | Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding はコメントを受け付けていません

Keyword-Oriented Multimodal Modeling for Euphemism Identification

要約 陶酔感の識別は、「雑草」(e曲表現)を「マリファナ」(ターゲットキーワード … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Keyword-Oriented Multimodal Modeling for Euphemism Identification はコメントを受け付けていません

Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving

要約 自律運転(AD)に関するビジョン言語モデル(VLM)の既存のベンチマーク( … 続きを読む

カテゴリー: cs.CL, cs.CV | Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving はコメントを受け付けていません

LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing

要約 テキスト誘導画像編集は、一般的な構造と背景の忠実度を維持しながら、自然言語 … 続きを読む

カテゴリー: cs.AI, cs.CV | LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing はコメントを受け付けていません

TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training

要約 拡散モデルは、視覚生成の主流のアプローチとして浮上しています。 ただし、こ … 続きを読む

カテゴリー: cs.AI, cs.CV | TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training はコメントを受け付けていません

AlignDiff: Learning Physically-Grounded Camera Alignment via Diffusion

要約 正確なカメラのキャリブレーションは、特に複雑な光学歪みが一般的である現実世 … 続きを読む

カテゴリー: cs.AI, cs.CV | AlignDiff: Learning Physically-Grounded Camera Alignment via Diffusion はコメントを受け付けていません

Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures

要約 外科的コンピュータービジョンアプリケーションの最近の進歩は、視覚のみのモデ … 続きを読む

カテゴリー: cs.AI, cs.CV | Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures はコメントを受け付けていません

Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers

要約 拡散変圧器(DITS)は、最先端の(SOTA)画像生成の品質を達成しました … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers はコメントを受け付けていません

When Astronomy Meets AI: Manazel For Crescent Visibility Prediction in Morocco

要約 各ヒジュリ月の初めの正確な決定は、宗教的、文化的、および行政目的に不可欠で … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | When Astronomy Meets AI: Manazel For Crescent Visibility Prediction in Morocco はコメントを受け付けていません

Self-Contrastive Forward-Forward Algorithm

要約 自律的に動作するエージェントは、生涯学習能力の恩恵を受けます。 ただし、互 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.ET, cs.LG, cs.NE | Self-Contrastive Forward-Forward Algorithm はコメントを受け付けていません