月別アーカイブ: 2025年2月

DECO: Unleashing the Potential of ConvNets for Query-based Detection and Segmentation

要約 トランスとそのバリアントは、画像分類、オブジェクトの検出、セグメンテーショ … 続きを読む

カテゴリー: cs.CV | DECO: Unleashing the Potential of ConvNets for Query-based Detection and Segmentation はコメントを受け付けていません

Balanced Rate-Distortion Optimization in Learned Image Compression

要約 学習した画像圧縮(LIC)深い学習アーキテクチャを使用すると、大きな進歩が … 続きを読む

カテゴリー: cs.CV, eess.IV | Balanced Rate-Distortion Optimization in Learned Image Compression はコメントを受け付けていません

Representing Signs as Signs: One-Shot ISLR to Facilitate Functional Sign Language Technologies

要約 孤立した手話認識(ISLR)は、スケーラブルな手話技術にとって重要ですが、 … 続きを読む

カテゴリー: cs.CL, cs.CV | Representing Signs as Signs: One-Shot ISLR to Facilitate Functional Sign Language Technologies はコメントを受け付けていません

Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think

要約 高度なテキストからイメージの生成の分野は、拡散トランスバックボーンを使用し … 続きを読む

カテゴリー: cs.CL, cs.CV | Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think はコメントを受け付けていません

Do generative video models understand physical principles?

要約 AIビデオ生成は革命を起こしており、品質とリアリズムが急速に進歩しています … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | Do generative video models understand physical principles? はコメントを受け付けていません

MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

要約 大規模なマルチモーダルモデル(LMMS)は、画像、質問、いくつかのオプショ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation はコメントを受け付けていません

Preconditioned Score-based Generative Models

要約 スコアベースの生成モデル(SGM)は、最近、有望なクラスの生成モデルとして … 続きを読む

カテゴリー: cs.CV | Preconditioned Score-based Generative Models はコメントを受け付けていません

DiagramQG: A Dataset for Generating Concept-Focused Questions from Diagrams

要約 視覚的な質問生成(VQG)は、教育アプリケーションの可能性により、大きな注 … 続きを読む

カテゴリー: cs.CV | DiagramQG: A Dataset for Generating Concept-Focused Questions from Diagrams はコメントを受け付けていません

SmartPretrain: Model-Agnostic and Dataset-Agnostic Representation Learning for Motion Prediction

要約 周囲のエージェントの将来の動きを予測することは、自動運転車(AVS)が動的 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | SmartPretrain: Model-Agnostic and Dataset-Agnostic Representation Learning for Motion Prediction はコメントを受け付けていません

Improved Baselines with Synchronized Encoding for Universal Medical Image Segmentation

要約 強力なゼロショット一般化機能で知られる大規模な基礎モデルは、広範囲のダウン … 続きを読む

カテゴリー: cs.CV | Improved Baselines with Synchronized Encoding for Universal Medical Image Segmentation はコメントを受け付けていません