cs.CV」カテゴリーアーカイブ

DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models

要約 ビデオ大規模な言語モデル(VLLM)は、最近、複雑なビデオコンテンツの処理 … 続きを読む

カテゴリー: cs.CV, cs.LG | DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models はコメントを受け付けていません

SemAlign3D: Semantic Correspondence between RGB-Images through Aligning 3D Object-Class Representations

要約 セマンティック対応は、最近の大規模なビジョンモデル(LVM)の進歩を通じて … 続きを読む

カテゴリー: cs.CV | SemAlign3D: Semantic Correspondence between RGB-Images through Aligning 3D Object-Class Representations はコメントを受け付けていません

Rethinking Efficient and Effective Point-based Networks for Event Camera Classification and Regression: EventMamba

要約 イベントカメラは、生物学的システムからインスピレーションを引き出し、最小限 … 続きを読む

カテゴリー: cs.CV | Rethinking Efficient and Effective Point-based Networks for Event Camera Classification and Regression: EventMamba はコメントを受け付けていません

Adaptive Weighted Parameter Fusion with CLIP for Class-Incremental Learning

要約 クラスインクリメンテルラーニング(CIL)により、モデルは新しいクラスから … 続きを読む

カテゴリー: cs.CV | Adaptive Weighted Parameter Fusion with CLIP for Class-Incremental Learning はコメントを受け付けていません

Patch-Depth Fusion: Dichotomous Image Segmentation via Fine-Grained Patch Strategy and Depth Integrity-Prior

要約 二分法画像セグメンテーション(DIS)は、高解像度の自然画像の高精度オブジ … 続きを読む

カテゴリー: cs.CV | Patch-Depth Fusion: Dichotomous Image Segmentation via Fine-Grained Patch Strategy and Depth Integrity-Prior はコメントを受け付けていません

Scenario Dreamer: Vectorized Latent Diffusion for Generating Driving Simulation Environments

要約 レーングラフとエージェントの境界ボックスを含む初期トラフィックシーンと閉ル … 続きを読む

カテゴリー: cs.CV, cs.RO | Scenario Dreamer: Vectorized Latent Diffusion for Generating Driving Simulation Environments はコメントを受け付けていません

UniCon: Unidirectional Information Flow for Effective Control of Large-Scale Diffusion Models

要約 大規模拡散モデルのトレーニングアダプターの制御と効率を高めるために設計され … 続きを読む

カテゴリー: cs.CV | UniCon: Unidirectional Information Flow for Effective Control of Large-Scale Diffusion Models はコメントを受け付けていません

Masked Self-Supervised Pre-Training for Text Recognition Transformers on Large-Scale Datasets

要約 自己学習学習は、さまざまなドメインのモデルパフォーマンスを改善するために、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Masked Self-Supervised Pre-Training for Text Recognition Transformers on Large-Scale Datasets はコメントを受け付けていません

Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities

要約 この作業では、2つのコア制約を満たしながら、マルチモーダル生成機能を備えた … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities はコメントを受け付けていません

Evaluating the evaluators: Towards human-aligned metrics for missing markers reconstruction

要約 アニメーションデータは、光学マーカーの位置を確立するために多数のカメラを利 … 続きを読む

カテゴリー: cs.CV, cs.HC, cs.LG | Evaluating the evaluators: Towards human-aligned metrics for missing markers reconstruction はコメントを受け付けていません