月別アーカイブ: 2024年6月

Exploring Multi-Timestep Multi-Stage Diffusion Features for Hyperspectral Image Classification

投稿日: 2024年6月4日作成者: jarxiv

要約スペクトル空間特徴学習の有効性は、ハイパースペクトル画像（HSI）の分類タ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Stratified Avatar Generation from Sparse Observations

投稿日: 2024年6月4日作成者: jarxiv

要約 AR/VRデバイスから3Dフルボディアバターを推定することは、AR/VRア … 続きを読む →

カテゴリー: cs.CV, cs.HC | コメントを受け付けていません

CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

投稿日: 2024年6月4日作成者: jarxiv

要約拡散モデルは、テキストから画像への生成の分野で大きな成功を収めている。しか … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Scaling White-Box Transformers for Vision

投稿日: 2024年6月4日作成者: jarxiv

要約 CRATEは、圧縮された疎な表現を学習するために設計されたホワイトボックス … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses

投稿日: 2024年6月4日作成者: jarxiv

要約本稿では、1836年から1936年までのフランスの国勢調査リストから情報を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DoRA: Weight-Decomposed Low-Rank Adaptation

投稿日: 2024年6月4日作成者: jarxiv

要約広く使われているパラメータ効率的ファインチューニング（PEFT）手法の中で … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions?

投稿日: 2024年6月4日作成者: jarxiv

要約エゴセントリックなビデオ言語による事前学習は、エゴセントリックな手とオブジ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SPAFormer: Sequential 3D Part Assembly with Transformers

投稿日: 2024年6月4日作成者: jarxiv

要約 3D部品組立（3D-PA）タスクにおける組合せ爆発の課題を克服するために設 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters

投稿日: 2024年6月4日作成者: jarxiv

要約継続的な学習により、視覚言語モデルは、過去の全データセットにアクセスするこ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Edit As You Wish: Video Caption Editing with Multi-grained User Control

投稿日: 2024年6月4日作成者: jarxiv

要約ユーザの要求に応じて自然言語で自動的にナレーションを行うこと、すなわち、制 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

月別アーカイブ: 2024年6月

Exploring Multi-Timestep Multi-Stage Diffusion Features for Hyperspectral Image Classification

Stratified Avatar Generation from Sparse Observations

CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

Scaling White-Box Transformers for Vision

The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses

DoRA: Weight-Decomposed Low-Rank Adaptation

EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions?

SPAFormer: Sequential 3D Part Assembly with Transformers

Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters

Edit As You Wish: Video Caption Editing with Multi-grained User Control

最近の投稿

最近のコメント

アーカイブ

カテゴリー