月別アーカイブ: 2024年4月

Combating Missing Modalities in Egocentric Videos at Test Time

投稿日: 2024年4月24日作成者: jarxiv

要約複数のモダリティを含むビデオを理解することは、特に自己中心的なビデオの場合 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Adaptive Mixed-Scale Feature Fusion Network for Blind AI-Generated Image Quality Assessment

投稿日: 2024年4月24日作成者: jarxiv

要約テキストから画像への生成モデルおよび画像から画像への生成モデルの成熟度が高 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Fourier-enhanced Implicit Neural Fusion Network for Multispectral and Hyperspectral Image Fusion

投稿日: 2024年4月24日作成者: jarxiv

要約最近、暗黙的ニューラル表現 (INR) はさまざまな視覚関連ドメインで大き … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Closed Loop Interactive Embodied Reasoning for Robot Manipulation

投稿日: 2024年4月24日作成者: jarxiv

要約身体的推論システムは、ロボットハードウェアと認知プロセスを統合し、通常、 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Deep Models for Multi-View 3D Object Recognition: A Review

投稿日: 2024年4月24日作成者: jarxiv

要約人間の意思決定は、多くの場合、複数の視点や視点からの視覚情報に依存します。 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Re-Thinking Inverse Graphics With Large Language Models

投稿日: 2024年4月24日作成者: jarxiv

要約逆グラフィックス (画像を物理変数に反転し、レンダリング時に観察されたシー … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Massively Annotated Datasets for Assessment of Synthetic and Real Data in Face Recognition

投稿日: 2024年4月24日作成者: jarxiv

要約顔認識アプリケーションは、データセットのサイズ、深層学習モデルの複雑さ、計 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Efficient Transformer Encoders for Mask2Former-style models

投稿日: 2024年4月24日作成者: jarxiv

要約ビジョントランスフォーマーベースのモデルは、画像セグメンテーションタ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Source-free Domain Adaptation for Video Object Detection Under Adverse Image Conditions

投稿日: 2024年4月24日作成者: jarxiv

要約事前トレーニングされたビデオオブジェクト検出器を現実世界のシナリオに導入 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition

投稿日: 2024年4月24日作成者: jarxiv

要約この論文では、複雑な現実世界のシナリオに向けた数式認識 (MER) に関す … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年4月

Combating Missing Modalities in Egocentric Videos at Test Time

Adaptive Mixed-Scale Feature Fusion Network for Blind AI-Generated Image Quality Assessment

Fourier-enhanced Implicit Neural Fusion Network for Multispectral and Hyperspectral Image Fusion

Closed Loop Interactive Embodied Reasoning for Robot Manipulation

Deep Models for Multi-View 3D Object Recognition: A Review

Re-Thinking Inverse Graphics With Large Language Models

Massively Annotated Datasets for Assessment of Synthetic and Real Data in Face Recognition

Efficient Transformer Encoders for Mask2Former-style models

Source-free Domain Adaptation for Video Object Detection Under Adverse Image Conditions

UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition

最近の投稿

最近のコメント

アーカイブ

カテゴリー