投稿者「jarxiv」のアーカイブ

A Multi-Modal Approach for Face Anti-Spoofing in Non-Calibrated Systems using Disparity Maps

要約 顔認識技術はさまざまなアプリケーションでますます使用されていますが、顔のな … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

Gaussian Eigen Models for Human Heads

要約 現在のパーソナライズされたニューラル ヘッド アバターはトレードオフに直面 … 続きを読む

カテゴリー: cs.CV | コメントする

LayerAnimate: Layer-specific Control for Animation

要約 アニメーション ビデオでは、前景要素と背景要素がレイヤーに分離され、スケッ … 続きを読む

カテゴリー: cs.CV | コメントする

Advancing Semantic Future Prediction through Multimodal Visual Sequence Transformers

要約 意味論的な将来予測は、動的環境をナビゲートする自律システムにとって重要です … 続きを読む

カテゴリー: cs.CV | コメントする

MiniMax-01: Scaling Foundation Models with Lightning Attention

要約 MiniMax-Text-01 および MiniMax-VL-01 を含む … 続きを読む

カテゴリー: cs.CL, cs.CV | コメントする

Rate-In: Information-Driven Adaptive Dropout Rates for Improved Inference-Time Uncertainty Estimation

要約 医療診断などのリスクに敏感なアプリケーションにニューラル ネットワークを導 … 続きを読む

カテゴリー: cs.CV, cs.LG, stat.ML | コメントする

Diffusion Adversarial Post-Training for One-Step Video Generation

要約 拡散モデルは画像やビデオの生成に広く使用されていますが、反復生成プロセスは … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

GameFactory: Creating New Games with Generative Interactive Videos

要約 生成型ゲーム エンジンは、新しいコンテンツを自律的に作成し、手動の作業負荷 … 続きを読む

カテゴリー: cs.CV | コメントする

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

要約 私たちは、画像とビデオの両方の領域レベルの理解を容易にするように設計された … 続きを読む

カテゴリー: cs.CV | コメントする

Predicting 4D Hand Trajectory from Monocular Videos

要約 単眼ビデオからコヒーレントな 4D 手の軌跡を推測するアプローチである H … 続きを読む

カテゴリー: cs.CV | コメントする