cs.CV」カテゴリーアーカイブ

S2S-Net: Addressing the Domain Gap of Heterogeneous Sensor Systems in LiDAR-Based Collective Perception

要約 集団認識(CP)は、自律運転の文脈における個々の認識の限界を克服するための … 続きを読む

カテゴリー: cs.CV, cs.RO | S2S-Net: Addressing the Domain Gap of Heterogeneous Sensor Systems in LiDAR-Based Collective Perception はコメントを受け付けていません

M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction

要約 相互補強効果(MRE)は、情報抽出とモデルの解釈可能性の交差点の新興サブフ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction はコメントを受け付けていません

TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation

要約 サッカーは世界的に人気のあるスポーツイベントであり、通常、長い試合と特徴的 … 続きを読む

カテゴリー: cs.CL, cs.CV | TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation はコメントを受け付けていません

FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding

要約 大規模なマルチモーダルモデル(LMM)では印象的な進歩がありました。 最近 … 続きを読む

カテゴリー: cs.AI, cs.CV | FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding はコメントを受け付けていません

Enhanced Sample Selection with Confidence Tracking: Identifying Correctly Labeled yet Hard-to-Learn Samples in Noisy Data

要約 ノイズの多いラベルが存在する場合の画像分類のための新しいサンプル選択方法を … 続きを読む

カテゴリー: cs.AI, cs.CV | Enhanced Sample Selection with Confidence Tracking: Identifying Correctly Labeled yet Hard-to-Learn Samples in Noisy Data はコメントを受け付けていません

Disentangling Visual Transformers: Patch-level Interpretability for Image Classification

要約 視覚的な変圧器は、画像分類タスクで顕著なパフォーマンスを達成していますが、 … 続きを読む

カテゴリー: cs.AI, cs.CV | Disentangling Visual Transformers: Patch-level Interpretability for Image Classification はコメントを受け付けていません

Latent Representations for Visual Proprioception in Inexpensive Robots

要約 ロボット操作には、ロボットの関節位置に関する明示的または暗黙的な知識が必要 … 続きを読む

カテゴリー: cs.CV, cs.RO | Latent Representations for Visual Proprioception in Inexpensive Robots はコメントを受け付けていません

RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation

要約 サブジェクト駆動型のテキストからイメージ(T2I)Generationは、 … 続きを読む

カテゴリー: cs.CV | RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation はコメントを受け付けていません

Mamba-Sea: A Mamba-based Framework with Global-to-Local Sequence Augmentation for Generalizable Medical Image Segmentation

要約 分布シフトで医療画像をセグメント化するために、ドメイン一般化(DG)は、目 … 続きを読む

カテゴリー: cs.CV | Mamba-Sea: A Mamba-based Framework with Global-to-Local Sequence Augmentation for Generalizable Medical Image Segmentation はコメントを受け付けていません

Towards One-Stage End-to-End Table Structure Recognition with Parallel Regression for Diverse Scenarios

要約 テーブル構造の認識は、構造化されていないデータのテーブルを機械理解可能な形 … 続きを読む

カテゴリー: cs.CV | Towards One-Stage End-to-End Table Structure Recognition with Parallel Regression for Diverse Scenarios はコメントを受け付けていません