cs.AI」カテゴリーアーカイブ

Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

要約 書いたり話したりするとき、人は時々立ち止まって考えることがあります。 推論 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking はコメントを受け付けていません

Rethinking Class-incremental Learning in the Era of Large Pre-trained Models via Test-Time Adaptation

要約 クラス増分学習 (CIL) は、以前に学習した情報を忘れることなく、新しい … 続きを読む

カテゴリー: cs.AI, cs.CV | Rethinking Class-incremental Learning in the Era of Large Pre-trained Models via Test-Time Adaptation はコメントを受け付けていません

What Sketch Explainability Really Means for Downstream Tasks

要約 この論文では、従来のピクセル指向の研究と比較して人間のストロークの重大な影 … 続きを読む

カテゴリー: cs.AI, cs.CV | What Sketch Explainability Really Means for Downstream Tasks はコメントを受け付けていません

AllSpark: Reborn Labeled Features from Unlabeled in Transformer for Semi-Supervised Semantic Segmentation

要約 半教師ありセマンティック セグメンテーション (SSSS) は、大量のラベ … 続きを読む

カテゴリー: cs.AI, cs.CV | AllSpark: Reborn Labeled Features from Unlabeled in Transformer for Semi-Supervised Semantic Segmentation はコメントを受け付けていません

Don’t Judge by the Look: A Motion Coherent Augmentation for Video Recognition

要約 物体認識における現在のトレーニング パイプラインでは、分類に有害な外観の変 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Don’t Judge by the Look: A Motion Coherent Augmentation for Video Recognition はコメントを受け付けていません

VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

要約 テキストからビジュアルコンポーネントへの進化により、テキストから画像やビデ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.GR | VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding はコメントを受け付けていません

TTA-Nav: Test-time Adaptive Reconstruction for Point-Goal Navigation under Visual Corruptions

要約 視覚的に破損した状態でのロボットのナビゲーションは、大きな課題となります。 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | TTA-Nav: Test-time Adaptive Reconstruction for Point-Goal Navigation under Visual Corruptions はコメントを受け付けていません

Counterfactual contrastive learning: robust representations via causal image synthesis

要約 対照的な事前トレーニングは、特に限られたラベル設定において、下流のタスクの … 続きを読む

カテゴリー: cs.AI, cs.CV | Counterfactual contrastive learning: robust representations via causal image synthesis はコメントを受け付けていません

3D-VLA: A 3D Vision-Language-Action Generative World Model

要約 最近のビジョン言語アクション (VLA) モデルは 2D 入力に依存してお … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | 3D-VLA: A 3D Vision-Language-Action Generative World Model はコメントを受け付けていません

Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models

要約 変圧器モデルは大成功を収めているにもかかわらず、依然として詳細に拡張するこ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, I.2.10 | Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models はコメントを受け付けていません