「cs.AI」カテゴリーアーカイブ

Universal Visuo-Tactile Video Understanding for Embodied Interaction

投稿日: 2025年5月29日作成者: jarxiv

要約具体的な知覚は、具体化されたエージェントが目視検査だけでは決定できないオブ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Tell me Habibi, is it Real or Fake?

投稿日: 2025年5月29日作成者: jarxiv

要約ディープフェイクの生成方法は急速に進化しており、偽のメディアを検出するのが … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

ReLearn: Unlearning via Learning for Large Language Models

投稿日: 2025年5月29日作成者: jarxiv

要約大規模な言語モデルの現在の学習方法は、通常、ターゲットトークンの確率を減ら … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC, cs.LG | コメントを受け付けていません

SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement

投稿日: 2025年5月29日作成者: jarxiv

要約エージェントとその環境間の相互作用において、エージェントはアクションを計画 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MA | コメントを受け付けていません

RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction

投稿日: 2025年5月29日作成者: jarxiv

要約画像の復帰は、さまざまなマルチモーダルタスクの品質が向上したトレーニングデ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Spatial Knowledge Graph-Guided Multimodal Synthesis

投稿日: 2025年5月29日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLM）の最近の進歩により、能力が大幅に向 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model

投稿日: 2025年5月29日作成者: jarxiv

要約人間は、時間的および空間的経験を越えて長期的なメモリを活用することにより、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Something’s Fishy In The Data Lake: A Critical Re-evaluation of Table Union Search Benchmarks

投稿日: 2025年5月29日作成者: jarxiv

要約最近のテーブル表現学習およびデータ発見方法は、データレイク内のテーブルユニ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.DB, cs.IR, cs.LG | コメントを受け付けていません

Visuospatial Cognitive Assistant

投稿日: 2025年5月29日作成者: jarxiv

要約ビデオベースの空間認知は、ロボット工学と具体化されたAIにとって不可欠です … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts

投稿日: 2025年5月29日作成者: jarxiv

要約マルチモーダルの大手言語モデル（MLLM）は一般的なビジョン言語タスクに優 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

Universal Visuo-Tactile Video Understanding for Embodied Interaction

Tell me Habibi, is it Real or Fake?

ReLearn: Unlearning via Learning for Large Language Models

SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement

RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction

Spatial Knowledge Graph-Guided Multimodal Synthesis

3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model

Something’s Fishy In The Data Lake: A Critical Re-evaluation of Table Union Search Benchmarks

Visuospatial Cognitive Assistant

Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts

最近の投稿

最近のコメント

アーカイブ

カテゴリー