投稿者「jarxiv」のアーカイブ

Survey of Video Diffusion Models: Foundations, Implementations, and Applications

要約 拡散モデルの最近の進歩により、ビデオ生成に革命をもたらし、従来の生成的敵対 … 続きを読む

カテゴリー: cs.CL, cs.CV | コメントする

MR. Video: ‘MapReduce’ is the Principle for Long Video Understanding

要約 MRを提案します。 ビデオ、長いビデオを処理するためのシンプルで効果的なM … 続きを読む

カテゴリー: cs.CV | コメントする

MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

要約 長いコンテキスト機能と視覚的理解の統合は、ビジョン言語モデル(VLM)の前 … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする

Histogram-based Parameter-efficient Tuning for Passive Sonar Classification

要約 パラメーター効率の高い転送学習(PETL)メソッドは、モデル全体を微調整す … 続きを読む

カテゴリー: cs.LG, cs.SD | コメントする

Learning to Reason under Off-Policy Guidance

要約 大規模な推論モデル(LRMS)の最近の進歩は、マルチステップ推論や自己反省 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Understanding LLM Behaviors via Compression: Data Generation, Knowledge Acquisition and Scaling Laws

要約 大規模な言語モデル(LLMS)は、多数のタスクにわたって顕著な能力を実証し … 続きを読む

カテゴリー: cs.AI, cs.IT, cs.LG, math.IT | コメントする

Distribution-aware Forgetting Compensation for Exemplar-Free Lifelong Person Re-identification

要約 生涯にわたる人の再識別(LREID)は、新しい情報に適応しながら古い知識を … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

Synergistic Weak-Strong Collaboration by Aligning Preferences

要約 現在の大規模な言語モデル(LLM)は、一般的な推論で優れていますが、独自ま … 続きを読む

カテゴリー: cs.AI | コメントする

VistaDepth: Frequency Modulation With Bias Reweighting For Enhanced Long-Range Depth Estimation

要約 単眼深度推定(MDE)は、単一のRGB画像からピクセルあたりの深度値を予測 … 続きを読む

カテゴリー: cs.CV | コメントする

DRAWER: Digital Reconstruction and Articulation With Environment Realism

要約 現実世界のデータから仮想デジタルレプリカを作成すると、ゲームやロボット工学 … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする