月別アーカイブ: 2024年3月

Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study

要約 画像に関する生のテキストから画像表現を事前トレーニングすることで、下流タス … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study はコメントを受け付けていません

Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models

要約 マルチモーダル大規模言語モデル (MLLM) は、視覚的な理解と推論に関連 … 続きを読む

カテゴリー: cs.CL, cs.CV | Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models はコメントを受け付けていません

A Novel Framework for Multi-Person Temporal Gaze Following and Social Gaze Prediction

要約 視線追跡と社会的視線予測は、人間のコミュニケーション行動、意図、社会的相互 … 続きを読む

カテゴリー: cs.CV | A Novel Framework for Multi-Person Temporal Gaze Following and Social Gaze Prediction はコメントを受け付けていません

FeatUp: A Model-Agnostic Framework for Features at Any Resolution

要約 ディープ フィーチャーはコンピューター ビジョン研究の基礎であり、画像のセ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG | FeatUp: A Model-Agnostic Framework for Features at Any Resolution はコメントを受け付けていません

VideoAgent: Long-form Video Understanding with Large Language Model as Agent

要約 長い形式のビデオの理解は、コンピュータ ビジョンにおける重大な課題であり、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR | VideoAgent: Long-form Video Understanding with Large Language Model as Agent はコメントを受け付けていません

Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives

要約 私たちは、与えられた音楽に基づいて非常に長いダンス シーケンスを生成できる … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives はコメントを受け付けていません

Frozen Feature Augmentation for Few-Shot Image Classification

要約 事前トレーニングされたビジョン モデルの出力、いわゆる「凍結特徴」に基づい … 続きを読む

カテゴリー: cs.CV | Frozen Feature Augmentation for Few-Shot Image Classification はコメントを受け付けていません

Strong and Controllable Blind Image Decomposition

要約 ブラインド画像分解は、画像内に存在するすべてのコンポーネントを分解すること … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | Strong and Controllable Blind Image Decomposition はコメントを受け付けていません

P-MapNet: Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors

要約 現在、高解像度地図 (HDMap) の助けを借りて、自動運転車が徐々に都市 … 続きを読む

カテゴリー: cs.CV | P-MapNet: Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors はコメントを受け付けていません

LILO: Learning Interpretable Libraries by Compressing and Documenting Code

要約 現在、大規模言語モデル (LLM) はコード生成に優れていますが、ソフトウ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PL | LILO: Learning Interpretable Libraries by Compressing and Documenting Code はコメントを受け付けていません