月別アーカイブ: 2025年2月

DECO: Unleashing the Potential of ConvNets for Query-based Detection and Segmentation

投稿日: 2025年2月28日作成者: jarxiv

要約トランスとそのバリアントは、画像分類、オブジェクトの検出、セグメンテーショ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Balanced Rate-Distortion Optimization in Learned Image Compression

投稿日: 2025年2月28日作成者: jarxiv

要約学習した画像圧縮（LIC）深い学習アーキテクチャを使用すると、大きな進歩が … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Representing Signs as Signs: One-Shot ISLR to Facilitate Functional Sign Language Technologies

投稿日: 2025年2月28日作成者: jarxiv

要約孤立した手話認識（ISLR）は、スケーラブルな手話技術にとって重要ですが、 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think

投稿日: 2025年2月28日作成者: jarxiv

要約高度なテキストからイメージの生成の分野は、拡散トランスバックボーンを使用し … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Do generative video models understand physical principles?

投稿日: 2025年2月28日作成者: jarxiv

要約 AIビデオ生成は革命を起こしており、品質とリアリズムが急速に進歩しています … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントを受け付けていません

MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

投稿日: 2025年2月28日作成者: jarxiv

要約大規模なマルチモーダルモデル（LMMS）は、画像、質問、いくつかのオプショ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Preconditioned Score-based Generative Models

投稿日: 2025年2月28日作成者: jarxiv

要約スコアベースの生成モデル（SGM）は、最近、有望なクラスの生成モデルとして … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DiagramQG: A Dataset for Generating Concept-Focused Questions from Diagrams

投稿日: 2025年2月28日作成者: jarxiv

要約視覚的な質問生成（VQG）は、教育アプリケーションの可能性により、大きな注 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SmartPretrain: Model-Agnostic and Dataset-Agnostic Representation Learning for Motion Prediction

投稿日: 2025年2月28日作成者: jarxiv

要約周囲のエージェントの将来の動きを予測することは、自動運転車（AVS）が動的 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Improved Baselines with Synchronized Encoding for Universal Medical Image Segmentation

投稿日: 2025年2月28日作成者: jarxiv

要約強力なゼロショット一般化機能で知られる大規模な基礎モデルは、広範囲のダウン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年2月

DECO: Unleashing the Potential of ConvNets for Query-based Detection and Segmentation

Balanced Rate-Distortion Optimization in Learned Image Compression

Representing Signs as Signs: One-Shot ISLR to Facilitate Functional Sign Language Technologies

Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think

Do generative video models understand physical principles?

MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

Preconditioned Score-based Generative Models

DiagramQG: A Dataset for Generating Concept-Focused Questions from Diagrams

SmartPretrain: Model-Agnostic and Dataset-Agnostic Representation Learning for Motion Prediction

Improved Baselines with Synchronized Encoding for Universal Medical Image Segmentation

最近の投稿

最近のコメント

アーカイブ

カテゴリー