cs.AI」カテゴリーアーカイブ

Universal Visuo-Tactile Video Understanding for Embodied Interaction

要約 具体的な知覚は、具体化されたエージェントが目視検査だけでは決定できないオブ … 続きを読む

カテゴリー: cs.AI, cs.CV | Universal Visuo-Tactile Video Understanding for Embodied Interaction はコメントを受け付けていません

Tell me Habibi, is it Real or Fake?

要約 ディープフェイクの生成方法は急速に進化しており、偽のメディアを検出するのが … 続きを読む

カテゴリー: cs.AI, cs.CV | Tell me Habibi, is it Real or Fake? はコメントを受け付けていません

ReLearn: Unlearning via Learning for Large Language Models

要約 大規模な言語モデルの現在の学習方法は、通常、ターゲットトークンの確率を減ら … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC, cs.LG | ReLearn: Unlearning via Learning for Large Language Models はコメントを受け付けていません

SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement

要約 エージェントとその環境間の相互作用において、エージェントはアクションを計画 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MA | SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement はコメントを受け付けていません

RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction

要約 画像の復帰は、さまざまなマルチモーダルタスクの品質が向上したトレーニングデ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction はコメントを受け付けていません

Spatial Knowledge Graph-Guided Multimodal Synthesis

要約 マルチモーダル大手言語モデル(MLLM)の最近の進歩により、能力が大幅に向 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Spatial Knowledge Graph-Guided Multimodal Synthesis はコメントを受け付けていません

3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model

要約 人間は、時間的および空間的経験を越えて長期的なメモリを活用することにより、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model はコメントを受け付けていません

Something’s Fishy In The Data Lake: A Critical Re-evaluation of Table Union Search Benchmarks

要約 最近のテーブル表現学習およびデータ発見方法は、データレイク内のテーブルユニ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.DB, cs.IR, cs.LG | Something’s Fishy In The Data Lake: A Critical Re-evaluation of Table Union Search Benchmarks はコメントを受け付けていません

Visuospatial Cognitive Assistant

要約 ビデオベースの空間認知は、ロボット工学と具体化されたAIにとって不可欠です … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Visuospatial Cognitive Assistant はコメントを受け付けていません

Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts

要約 マルチモーダルの大手言語モデル(MLLM)は一般的なビジョン言語タスクに優 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts はコメントを受け付けていません