「cs.CV」カテゴリーアーカイブ

BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation

投稿日: 2025年4月24日作成者: jarxiv

要約テキストツービデオ（T2V）の生成モデルは、急速に進歩し、エンターテイメン … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

DreamO: A Unified Framework for Image Customization

投稿日: 2025年4月24日作成者: jarxiv

要約最近、画像のカスタマイズに関する広範な研究（例：アイデンティティ、主題、ス … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DiffArtist: Towards Structure and Appearance Controllable Image Stylization

投稿日: 2025年4月24日作成者: jarxiv

要約芸術的なスタイルには、構造要素と外観の両方の要素が含まれます。既存のニュ … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning

投稿日: 2025年4月24日作成者: jarxiv

要約ビジョン言語モデル（VLM）は、マルチモーダル推論タスクの顕著な進歩を示し … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

A Survey on Mixup Augmentations and Beyond

投稿日: 2025年4月24日作成者: jarxiv

要約深いニューラルネットワークが過去10年間でスリリングなブレークスルーを達成 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Generalized Neighborhood Attention: Multi-dimensional Sparse Attention at the Speed of Light

投稿日: 2025年4月24日作成者: jarxiv

要約近隣の注意などの多くのまばらな注意メカニズムは、通常、自己注意ベースライン … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

I-Con: A Unifying Framework for Representation Learning

投稿日: 2025年4月24日作成者: jarxiv

要約表現学習の分野が成長するにつれて、さまざまなクラスの問題を解決するために、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IT, cs.LG, math.IT | コメントを受け付けていません

Procedural Dataset Generation for Zero-Shot Stereo Matching

投稿日: 2025年4月24日作成者: jarxiv

要約合成データセットは、ステレオマッチングネットワークをトレーニングするための … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

EvTTC: An Event Camera Dataset for Time-to-Collision Estimation

投稿日: 2025年4月24日作成者: jarxiv

要約衝突までの時間（TTC）の推定は、すべての自動緊急ブレーキ（AEB）システ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

MedNNS: Supernet-based Medical Task-Adaptive Neural Network Search

投稿日: 2025年4月24日作成者: jarxiv

要約ディープラーニング（DL）は、医療イメージングの分野で顕著な進歩を遂げまし … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation

DreamO: A Unified Framework for Image Customization

DiffArtist: Towards Structure and Appearance Controllable Image Stylization

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning

A Survey on Mixup Augmentations and Beyond

Generalized Neighborhood Attention: Multi-dimensional Sparse Attention at the Speed of Light

I-Con: A Unifying Framework for Representation Learning

Procedural Dataset Generation for Zero-Shot Stereo Matching

EvTTC: An Event Camera Dataset for Time-to-Collision Estimation

MedNNS: Supernet-based Medical Task-Adaptive Neural Network Search

最近の投稿

最近のコメント

アーカイブ

カテゴリー