「cs.AI」カテゴリーアーカイブ

Scene Graph Generation in Large-Size VHR Satellite Imagery: A Large-Scale Dataset and A Context-Aware Approach

投稿日: 2024年6月14日作成者: jarxiv

要約衛星画像 (SAI) におけるシーングラフ生成 (SGG) は、知覚から … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding

投稿日: 2024年6月14日作成者: jarxiv

要約マルチモーダル LLM の堅牢なマルチ画像理解機能に焦点を当てた包括的なベ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Explore the Limits of Omni-modal Pretraining at Scale

投稿日: 2024年6月14日作成者: jarxiv

要約私たちは、あらゆるモダリティを理解し、普遍的な表現を学習できるオムニモーダ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Real2Code: Reconstruct Articulated Objects via Code Generation

投稿日: 2024年6月14日作成者: jarxiv

要約コード生成を通じて多関節オブジェクトを再構築する新しいアプローチである R … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Is Programming by Example solved by LLMs?

投稿日: 2024年6月14日作成者: jarxiv

要約 Programming-by-Examples (PBE) は、入出力サン … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PL, cs.SE | コメントを受け付けていません

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

投稿日: 2024年6月14日作成者: jarxiv

要約マルチモーダル言語言語モデル (MLLM) は、「ワールドモデル」、つま … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

DualCross: Cross-Modality Cross-Domain Adaptation for Monocular BEV Perception

投稿日: 2024年6月13日作成者: jarxiv

要約トレーニングと展開の間の領域のギャップを埋めること、および複数のセンサー … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Scaling Manipulation Learning with Visual Kinematic Chain Prediction

投稿日: 2024年6月13日作成者: jarxiv

要約多様なデータセットから汎用モデルを学習することは、機械学習において大きな成 … 続きを読む →

カテゴリー: cs.AI, cs.RO | コメントを受け付けていません

AnyRotate: Gravity-Invariant In-Hand Object Rotation with Sim-to-Real Touch

投稿日: 2024年6月13日作成者: jarxiv

要約人間の手は、さまざまな手の動きがある場合でも手の中で操作することができます … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.RO | コメントを受け付けていません

Hierarchical Reinforcement Learning for Swarm Confrontation with High Uncertainty

投稿日: 2024年6月13日作成者: jarxiv

要約群れロボット工学では、追跡回避ゲームを含む対立が重要なシナリオです。未知 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.RO | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

Scene Graph Generation in Large-Size VHR Satellite Imagery: A Large-Scale Dataset and A Context-Aware Approach

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding

Explore the Limits of Omni-modal Pretraining at Scale

Real2Code: Reconstruct Articulated Objects via Code Generation

Is Programming by Example solved by LLMs?

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

DualCross: Cross-Modality Cross-Domain Adaptation for Monocular BEV Perception

Scaling Manipulation Learning with Visual Kinematic Chain Prediction

AnyRotate: Gravity-Invariant In-Hand Object Rotation with Sim-to-Real Touch

Hierarchical Reinforcement Learning for Swarm Confrontation with High Uncertainty

最近の投稿

最近のコメント

アーカイブ

カテゴリー