月別アーカイブ: 2024年7月

Conceptual Codebook Learning for Vision-Language Models

投稿日: 2024年7月3日作成者: jarxiv

要約この論文では、ビジョン言語モデル (VLM) の新しい微調整手法である概念 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Enable the Right to be Forgotten with Federated Client Unlearning in Medical Imaging

投稿日: 2024年7月3日作成者: jarxiv

要約ほとんどのデータ規制に記載されているように、忘れられる権利はフェデレーテッ … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

SMERF: Streamable Memory Efficient Radiance Fields for Real-Time Large-Scene Exploration

投稿日: 2024年7月3日作成者: jarxiv

要約リアルタイムビュー合成の最近の技術は、忠実度と速度が急速に進歩しており、 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

GCF: Graph Convolutional Networks for Facial Expression Recognition

投稿日: 2024年7月3日作成者: jarxiv

要約表情認識 (FER) は、対人コミュニケーションを理解するために不可欠です … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos

投稿日: 2024年7月3日作成者: jarxiv

要約ビデオイベント内で時間的推論を実行する AI モデルの能力を厳密にテスト … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Investigating Event-Based Cameras for Video Frame Interpolation in Sports

投稿日: 2024年7月3日作成者: jarxiv

要約スローモーションリプレイは、スポーツゲームの重要な瞬間をスリリングな視 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

投稿日: 2024年7月3日作成者: jarxiv

要約この論文では、独立したトークンごとのノイズレベルで一連のトークンのノイズ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation

投稿日: 2024年7月3日作成者: jarxiv

要約 Text-to-Video（T2V）生成は、大規模なマルチモダリティモデ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Steerable Pyramid Transform Enables Robust Left Ventricle Quantification

投稿日: 2024年7月3日作成者: jarxiv

要約心臓指数の予測は、医療画像分野で長い間焦点となってきました。さまざまな深 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart

投稿日: 2024年7月3日作成者: jarxiv

要約畳み込みニューラルネットワーク (CNN) とビジョントランスフォーマ … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

月別アーカイブ: 2024年7月

Conceptual Codebook Learning for Vision-Language Models

Enable the Right to be Forgotten with Federated Client Unlearning in Medical Imaging

SMERF: Streamable Memory Efficient Radiance Fields for Real-Time Large-Scene Exploration

GCF: Graph Convolutional Networks for Facial Expression Recognition

ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos

Investigating Event-Based Cameras for Video Frame Interpolation in Sports

Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation

Steerable Pyramid Transform Enables Robust Left Ventricle Quantification

xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart

最近の投稿

最近のコメント

アーカイブ

カテゴリー