「cs.AI」カテゴリーアーカイブ

StarVector: Generating Scalable Vector Graphics Code from Images and Text

投稿日: 2024年12月5日作成者: jarxiv

要約スケーラブル・ベクター・グラフィックス(SVG)は、そのスケーラビリティと … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

投稿日: 2024年12月5日作成者: jarxiv

要約マルチモーダル言語モデル(MLM)は、特殊なモデルが得意とする基本的な視覚 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

FLAIR: VLM with Fine-grained Language-informed Image Representations

投稿日: 2024年12月5日作成者: jarxiv

要約 CLIPは、画像とテキストを拡大縮小して整列させるという素晴らしい結果を示 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Navigation World Models

投稿日: 2024年12月5日作成者: jarxiv

要約ナビゲーションは、視覚運動能力を持つエージェントの基本的なスキルである。我 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

FCL-ViT: Task-Aware Attention Tuning for Continual Learning

投稿日: 2024年12月5日作成者: jarxiv

要約継続学習（Continual Learning：CL）とは、古い知識を忘れ … 続きを読む →

カテゴリー: cs.AI | コメントを受け付けていません

Time-Reversal Provides Unsupervised Feedback to LLMs

投稿日: 2024年12月5日作成者: jarxiv

要約ラージ・ランゲージ・モデル（LLM）は通常、時間の前方向を予測するように学 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Scaling Image Tokenizers with Grouped Spherical Quantization

投稿日: 2024年12月5日作成者: jarxiv

要約ビジョントークナイザーは、そのスケーラビリティとコンパクト性から多くの注目 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

PKRD-CoT: A Unified Chain-of-thought Prompting for Multi-Modal Large Language Models in Autonomous Driving

投稿日: 2024年12月4日作成者: jarxiv

要約ロバストなマルチモーダル大規模言語モデル（MLLM）の能力を、自律走行コン … 続きを読む →

カテゴリー: cs.AI, cs.RO | コメントを受け付けていません

Learning Ensembles of Vision-based Safety Control Filters

投稿日: 2024年12月4日作成者: jarxiv

要約制御システムにおける安全フィルタは、安全制約に違反する公称制御を修正する。 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | コメントを受け付けていません

QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds

投稿日: 2024年12月4日作成者: jarxiv

要約ロボットエージェントが現実の中で人間を支援する機会が増えている中、四足歩行 … 続きを読む →

カテゴリー: cs.AI, cs.RO | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

StarVector: Generating Scalable Vector Graphics Code from Images and Text

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

FLAIR: VLM with Fine-grained Language-informed Image Representations

Navigation World Models

FCL-ViT: Task-Aware Attention Tuning for Continual Learning

Time-Reversal Provides Unsupervised Feedback to LLMs

Scaling Image Tokenizers with Grouped Spherical Quantization

PKRD-CoT: A Unified Chain-of-thought Prompting for Multi-Modal Large Language Models in Autonomous Driving

Learning Ensembles of Vision-based Safety Control Filters

QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds

最近の投稿

最近のコメント

アーカイブ

カテゴリー