月別アーカイブ: 2024年2月

Memory Consolidation Enables Long-Context Video Understanding

要約 ほとんどのトランスフォーマーベースのビデオ エンコーダーは、二次関数の複雑 … 続きを読む

カテゴリー: cs.CV | Memory Consolidation Enables Long-Context Video Understanding はコメントを受け付けていません

Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images

要約 幾何学的コンテキストを組み込みながら、画像から深度や表面法線などの幾何学を … 続きを読む

カテゴリー: cs.CV | Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images はコメントを受け付けていません

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

要約 テキストから画像への (T2I) 拡散モデル (安定拡散など) と、Dre … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG | AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning はコメントを受け付けていません

CREMA: Multimodal Compositional Video Reasoning via Efficient Modular Adaptation and Fusion

要約 マルチモーダル構成推論アプローチは目覚ましい進歩を遂げていますが、多くのモ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | CREMA: Multimodal Compositional Video Reasoning via Efficient Modular Adaptation and Fusion はコメントを受け付けていません

Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data

要約 近年、Transformers は、テキストおよび画像やビデオなどのさまざ … 続きを読む

カテゴリー: cs.CV | Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data はコメントを受け付けていません

EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies

要約 画像内の異常を検出することは、特にリアルタイムのコンピュータ ビジョン ア … 続きを読む

カテゴリー: cs.CV | EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies はコメントを受け付けていません

ClickSAM: Fine-tuning Segment Anything Model using click prompts for ultrasound image segmentation

要約 新しくリリースされた Segment Anything Model (SA … 続きを読む

カテゴリー: cs.AI, cs.CV, physics.med-ph | ClickSAM: Fine-tuning Segment Anything Model using click prompts for ultrasound image segmentation はコメントを受け付けていません

Point-VOS: Pointing Up Video Object Segmentation

要約 現在の最先端のビデオ オブジェクト セグメンテーション (VOS) 手法は … 続きを読む

カテゴリー: cs.CV | Point-VOS: Pointing Up Video Object Segmentation はコメントを受け付けていません

Collaborative Control for Geometry-Conditioned PBR Image Generation

要約 現在の 3D コンテンツ生成は、RGB 画像を出力する生成モデルに基づいて … 続きを読む

カテゴリー: cs.CV, cs.GR, I.4.0 | Collaborative Control for Geometry-Conditioned PBR Image Generation はコメントを受け付けていません

WebLINX: Real-World Website Navigation with Multi-Turn Dialogue

要約 私たちは、デジタル エージェントが Web ブラウザを制御し、ユーザーの指 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | WebLINX: Real-World Website Navigation with Multi-Turn Dialogue はコメントを受け付けていません