「cs.AI」カテゴリーアーカイブ

Vision language models are unreliable at trivial spatial cognition

投稿日: 2025年4月23日作成者: jarxiv

要約ビジョン言語モデル（VLM）は、画像から関連する視覚空間情報を抽出するよう … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Describe Anything: Detailed Localized Image and Video Captioning

投稿日: 2025年4月23日作成者: jarxiv

要約画像やビデオで特定の領域の詳細かつ正確な説明を生成することは、ビジョン言語 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Learning to Reason under Off-Policy Guidance

投稿日: 2025年4月23日作成者: jarxiv

要約大規模な推論モデル（LRMS）の最近の進歩は、マルチステップ推論や自己反省 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Understanding LLM Behaviors via Compression: Data Generation, Knowledge Acquisition and Scaling Laws

投稿日: 2025年4月23日作成者: jarxiv

要約大規模な言語モデル（LLMS）は、多数のタスクにわたって顕著な能力を実証し … 続きを読む →

カテゴリー: cs.AI, cs.IT, cs.LG, math.IT | コメントを受け付けていません

Distribution-aware Forgetting Compensation for Exemplar-Free Lifelong Person Re-identification

投稿日: 2025年4月23日作成者: jarxiv

要約生涯にわたる人の再識別（LREID）は、新しい情報に適応しながら古い知識を … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Synergistic Weak-Strong Collaboration by Aligning Preferences

投稿日: 2025年4月23日作成者: jarxiv

要約現在の大規模な言語モデル（LLM）は、一般的な推論で優れていますが、独自ま … 続きを読む →

カテゴリー: cs.AI | コメントを受け付けていません

From Imitation to Exploration: End-to-end Autonomous Driving based on World Model

投稿日: 2025年4月22日作成者: jarxiv

要約近年、エンドツーエンドの自律運転アーキテクチャは、エラーの蓄積を回避する際 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.RO | コメントを受け付けていません

LLM-Enabled In-Context Learning for Data Collection Scheduling in UAV-assisted Sensor Networks

投稿日: 2025年4月22日作成者: jarxiv

要約無人航空機（UAV）は、さまざまなプライベートおよび商業用アプリケーション … 続きを読む →

カテゴリー: 53-01, C.2, cs.AI, cs.ET, cs.LG, cs.RO | コメントを受け付けていません

Modality Selection and Skill Segmentation via Cross-Modality Attention

投稿日: 2025年4月22日作成者: jarxiv

要約触覚やオーディオなどの追加の感覚モダリティを基礎ロボットモデルに組み込むこ … 続きを読む →

カテゴリー: cs.AI, cs.RO | コメントを受け付けていません

Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction

投稿日: 2025年4月22日作成者: jarxiv

要約一般化可能な自己修正システムの構築は、ロボットが障害から回復するために重要 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

Vision language models are unreliable at trivial spatial cognition

Describe Anything: Detailed Localized Image and Video Captioning

Learning to Reason under Off-Policy Guidance

Understanding LLM Behaviors via Compression: Data Generation, Knowledge Acquisition and Scaling Laws

Distribution-aware Forgetting Compensation for Exemplar-Free Lifelong Person Re-identification

Synergistic Weak-Strong Collaboration by Aligning Preferences

From Imitation to Exploration: End-to-end Autonomous Driving based on World Model

LLM-Enabled In-Context Learning for Data Collection Scheduling in UAV-assisted Sensor Networks

Modality Selection and Skill Segmentation via Cross-Modality Attention

Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction

最近の投稿

最近のコメント

アーカイブ

カテゴリー