月別アーカイブ: 2024年2月

Memory Consolidation Enables Long-Context Video Understanding

投稿日: 2024年2月9日作成者: jarxiv

要約ほとんどのトランスフォーマーベースのビデオエンコーダーは、二次関数の複雑 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images

投稿日: 2024年2月9日作成者: jarxiv

要約幾何学的コンテキストを組み込みながら、画像から深度や表面法線などの幾何学を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

投稿日: 2024年2月9日作成者: jarxiv

要約テキストから画像への (T2I) 拡散モデル (安定拡散など) と、Dre … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.LG | コメントを受け付けていません

CREMA: Multimodal Compositional Video Reasoning via Efficient Modular Adaptation and Fusion

投稿日: 2024年2月9日作成者: jarxiv

要約マルチモーダル構成推論アプローチは目覚ましい進歩を遂げていますが、多くのモ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data

投稿日: 2024年2月9日作成者: jarxiv

要約近年、Transformers は、テキストおよび画像やビデオなどのさまざ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies

投稿日: 2024年2月9日作成者: jarxiv

要約画像内の異常を検出することは、特にリアルタイムのコンピュータビジョンア … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ClickSAM: Fine-tuning Segment Anything Model using click prompts for ultrasound image segmentation

投稿日: 2024年2月9日作成者: jarxiv

要約新しくリリースされた Segment Anything Model (SA … 続きを読む →

カテゴリー: cs.AI, cs.CV, physics.med-ph | コメントを受け付けていません

Point-VOS: Pointing Up Video Object Segmentation

投稿日: 2024年2月9日作成者: jarxiv

要約現在の最先端のビデオオブジェクトセグメンテーション (VOS) 手法は … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Collaborative Control for Geometry-Conditioned PBR Image Generation

投稿日: 2024年2月9日作成者: jarxiv

要約現在の 3D コンテンツ生成は、RGB 画像を出力する生成モデルに基づいて … 続きを読む →

カテゴリー: cs.CV, cs.GR, I.4.0 | コメントを受け付けていません

WebLINX: Real-World Website Navigation with Multi-Turn Dialogue

投稿日: 2024年2月9日作成者: jarxiv

要約私たちは、デジタルエージェントが Web ブラウザを制御し、ユーザーの指 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

月別アーカイブ: 2024年2月

Memory Consolidation Enables Long-Context Video Understanding

Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

CREMA: Multimodal Compositional Video Reasoning via Efficient Modular Adaptation and Fusion

Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data

EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies

ClickSAM: Fine-tuning Segment Anything Model using click prompts for ultrasound image segmentation

Point-VOS: Pointing Up Video Object Segmentation

Collaborative Control for Geometry-Conditioned PBR Image Generation

WebLINX: Real-World Website Navigation with Multi-Turn Dialogue

最近の投稿

最近のコメント

アーカイブ

カテゴリー