cs.AI」カテゴリーアーカイブ

Fwd2Bot: LVLM Visual Token Compression with Double Forward Bottleneck

要約 この作業では、大規模なビジョン言語モデル(LVLM)のビジョントークンを、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Fwd2Bot: LVLM Visual Token Compression with Double Forward Bottleneck はコメントを受け付けていません

Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video

要約 このペーパーでは、カジュアルなビデオの動的なシーンを理解するための統一され … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video はコメントを受け付けていません

Stable-SCore: A Stable Registration-based Framework for 3D Shape Correspondence

要約 キャラクターの形状の対応を確立することは、コンピュータービジョンとグラフィ … 続きを読む

カテゴリー: cs.AI, cs.CV | Stable-SCore: A Stable Registration-based Framework for 3D Shape Correspondence はコメントを受け付けていません

StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion

要約 新しい様式化された運動潜在拡散モデルであるStylemotifを提示し、複 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion はコメントを受け付けていません

Flip Learning: Weakly Supervised Erase to Segment Nodules in Breast Ultrasound

要約 2D乳房超音波(BUS)と3D自動乳房超音波(ABUS)の両方における結節 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Flip Learning: Weakly Supervised Erase to Segment Nodules in Breast Ultrasound はコメントを受け付けていません

LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning

要約 Deep Renection Learning(DRL)は、ロボット制御に … 続きを読む

カテゴリー: cs.AI, cs.RO | LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning はコメントを受け付けていません

Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning

要約 視覚的推論能力は、複雑なマルチモーダルデータを理解する上で重要な役割を果た … 続きを読む

カテゴリー: cs.AI, cs.CV | Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning はコメントを受け付けていません

Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations

要約 LLMの最近の進歩は、具体化されたアプリケーションでモーション生成モデルに … 続きを読む

カテゴリー: cs.AI, cs.RO | Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations はコメントを受け付けていません

TwoStep: Multi-agent Task Planning using Classical Planners and Large Language Models

要約 計画ドメイン定義言語(PDDL)などの古典的な計画の定式化が可能な場合は、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MA, cs.RO | TwoStep: Multi-agent Task Planning using Classical Planners and Large Language Models はコメントを受け付けていません

Inference-Time Policy Steering through Human Interactions

要約 人間のデモンストレーションで訓練された生成ポリシーは、マルチモーダルで長老 … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.LG, cs.RO | Inference-Time Policy Steering through Human Interactions はコメントを受け付けていません