月別アーカイブ: 2024年6月

Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems

要約 この研究では、多段階の意思決定タスクに直面したときの変圧器の訓練損失の急速 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems はコメントを受け付けていません

ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

要約 ShareGPT4Video シリーズを紹介します。これは、高密度で正確な … 続きを読む

カテゴリー: cs.CV | ShareGPT4Video: Improving Video Understanding and Generation with Better Captions はコメントを受け付けていません

Parameter-Inverted Image Pyramid Networks

要約 画像ピラミッドは、画像を正確に理解するためにマルチスケール特徴を取得するた … 続きを読む

カテゴリー: cs.CV | Parameter-Inverted Image Pyramid Networks はコメントを受け付けていません

BitsFusion: 1.99 bits Weight Quantization of Diffusion Model

要約 拡散ベースの画像生成モデルは、高品質のコンテンツを合成する機能を示すことに … 続きを読む

カテゴリー: cs.CV | BitsFusion: 1.99 bits Weight Quantization of Diffusion Model はコメントを受け付けていません

Coarse-To-Fine Tensor Trains for Compact Visual Representations

要約 ビジュアル データのコンパクトで高品質、最適化が容易な表現を学習する機能は … 続きを読む

カテゴリー: cs.CV, cs.LG | Coarse-To-Fine Tensor Trains for Compact Visual Representations はコメントを受け付けていません

DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs

要約 ほとんどの大規模マルチモーダル モデル (LMM) は、ビジュアル トーク … 続きを読む

カテゴリー: cs.CV | DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs はコメントを受け付けていません

Coherent Zero-Shot Visual Instruction Generation

要約 テキストから画像への合成、特に拡散モデルの進歩にもかかわらず、一連のステッ … 続きを読む

カテゴリー: cs.AI, cs.CV | Coherent Zero-Shot Visual Instruction Generation はコメントを受け付けていません

RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation

要約 ロボット操作の基本的な目的は、モデルが視覚的なシーンを理解し、アクションを … 続きを読む

カテゴリー: cs.CV | RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation はコメントを受け付けていません

Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion

要約 近年、3D 生成モデルの開発が急速に進み、3D オブジェクトの動的な動きの … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion はコメントを受け付けていません

GLACE: Global Local Accelerated Coordinate Encoding

要約 シーン座標回帰 (SCR) メソッドは、カメラの姿勢推定のために 2D-3 … 続きを読む

カテゴリー: cs.CV | GLACE: Global Local Accelerated Coordinate Encoding はコメントを受け付けていません