月別アーカイブ: 2024年3月

Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study

投稿日: 2024年3月18日作成者: jarxiv

要約画像に関する生のテキストから画像表現を事前トレーニングすることで、下流タス … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models

投稿日: 2024年3月18日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、視覚的な理解と推論に関連 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

A Novel Framework for Multi-Person Temporal Gaze Following and Social Gaze Prediction

投稿日: 2024年3月18日作成者: jarxiv

要約視線追跡と社会的視線予測は、人間のコミュニケーション行動、意図、社会的相互 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FeatUp: A Model-Agnostic Framework for Features at Any Resolution

投稿日: 2024年3月18日作成者: jarxiv

要約ディープフィーチャーはコンピュータービジョン研究の基礎であり、画像のセ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG | コメントを受け付けていません

VideoAgent: Long-form Video Understanding with Large Language Model as Agent

投稿日: 2024年3月18日作成者: jarxiv

要約長い形式のビデオの理解は、コンピュータビジョンにおける重大な課題であり、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR | コメントを受け付けていません

Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives

投稿日: 2024年3月18日作成者: jarxiv

要約私たちは、与えられた音楽に基づいて非常に長いダンスシーケンスを生成できる … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | コメントを受け付けていません

Frozen Feature Augmentation for Few-Shot Image Classification

投稿日: 2024年3月18日作成者: jarxiv

要約事前トレーニングされたビジョンモデルの出力、いわゆる「凍結特徴」に基づい … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Strong and Controllable Blind Image Decomposition

投稿日: 2024年3月18日作成者: jarxiv

要約ブラインド画像分解は、画像内に存在するすべてのコンポーネントを分解すること … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

P-MapNet: Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors

投稿日: 2024年3月18日作成者: jarxiv

要約現在、高解像度地図 (HDMap) の助けを借りて、自動運転車が徐々に都市 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LILO: Learning Interpretable Libraries by Compressing and Documenting Code

投稿日: 2024年3月18日作成者: jarxiv

要約現在、大規模言語モデル (LLM) はコード生成に優れていますが、ソフトウ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PL | コメントを受け付けていません

月別アーカイブ: 2024年3月

Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study

Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models

A Novel Framework for Multi-Person Temporal Gaze Following and Social Gaze Prediction

FeatUp: A Model-Agnostic Framework for Features at Any Resolution

VideoAgent: Long-form Video Understanding with Large Language Model as Agent

Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives

Frozen Feature Augmentation for Few-Shot Image Classification

Strong and Controllable Blind Image Decomposition

P-MapNet: Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors

LILO: Learning Interpretable Libraries by Compressing and Documenting Code

最近の投稿

最近のコメント

アーカイブ

カテゴリー