cs.AI」カテゴリーアーカイブ

Reinforcing Multimodal Understanding and Generation with Dual Self-rewards

要約 大規模な言語モデル(LLMS)に基づいて、最近の大規模なマルチモーダルモデ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Reinforcing Multimodal Understanding and Generation with Dual Self-rewards はコメントを受け付けていません

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design

要約 手動スライドの作成は労働集約的であり、専門家の事前知識が必要です。 既存の … 続きを読む

カテゴリー: cs.AI, cs.CV | SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design はコメントを受け付けていません

Audio-Sync Video Generation with Multi-Stream Temporal Control

要約 オーディオは本質的に一時的であり、視覚的な世界と密接に同期されているため、 … 続きを読む

カテゴリー: cs.AI, cs.CV | Audio-Sync Video Generation with Multi-Stream Temporal Control はコメントを受け付けていません

Dynamic View Synthesis as an Inverse Problem

要約 この作業では、トレーニングなしの設定での逆の問題として、単眼動画からの動的 … 続きを読む

カテゴリー: cs.AI, cs.CV | Dynamic View Synthesis as an Inverse Problem はコメントを受け付けていません

Hidden in plain sight: VLMs overlook their visual representations

要約 言語は、視覚タスクのパフォーマンスを指定および評価するための自然なインター … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Hidden in plain sight: VLMs overlook their visual representations はコメントを受け付けていません

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

要約 自己回帰ビデオ拡散モデルの新しいトレーニングパラダイムである自己強制を紹介 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion はコメントを受け付けていません

GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior

要約 マルチモーダル大手言語モデル(MLLMS)は、グラフィカルユーザーインター … 続きを読む

カテゴリー: cs.AI, cs.CV | GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior はコメントを受け付けていません

Vision Transformers Don’t Need Trained Registers

要約 視覚変圧器における以前に特定された現象の根底にあるメカニズムを調査します。 … 続きを読む

カテゴリー: cs.AI, cs.CV | Vision Transformers Don’t Need Trained Registers はコメントを受け付けていません

StableMTL: Repurposing Latent Diffusion Models for Multi-Task Learning from Partially Annotated Synthetic Datasets

要約 密な予測のためのマルチタスク学習は、すべてのタスクの広範な注釈の必要性によ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | StableMTL: Repurposing Latent Diffusion Models for Multi-Task Learning from Partially Annotated Synthetic Datasets はコメントを受け付けていません

Distillation Robustifies Unlearning

要約 現在のLLM学習方法は堅牢ではありません。それらは、微調整のいくつかのステ … 続きを読む

カテゴリー: cs.AI, cs.LG | Distillation Robustifies Unlearning はコメントを受け付けていません