-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models
要約 モデルの編集は、時間のかかる完全な再訓練を必要とせずに、事前に訓練されたモ … 続きを読む
Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
要約 GPT-4O様の大型マルチモーダルモデル(LMMS)の出現により、テキスト … 続きを読む
Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning
要約 EGO-R1は、補強学習(RL)を介して訓練されたEGO-R1エージェント … 続きを読む
ROSA: Harnessing Robot States for Vision-Language and Action Alignment
要約 ビジョン言語モデル(VLM)の強力な一般化能力により、ビジョン言語アクショ … 続きを読む
VideoPDE: Unified Generative PDE Solving via Video Inpainting Diffusion Models
要約 ビデオインペインティング拡散トランスモデルを使用して、部分微分方程式(PD … 続きを読む
Diagnosing and Improving Diffusion Models by Estimating the Optimal Loss Value
要約 拡散モデルは、生成モデリングで顕著な成功を収めています。 より安定したトレ … 続きを読む
Towards a Cascaded LLM Framework for Cost-effective Human-AI Decision-Making
要約 効果的な人間と意思決定のバランスは、3つの重要な要素をバランスさせます。\ … 続きを読む
Foundation Models in Medical Imaging — A Review and Outlook
要約 ファンデーションモデル(FMS)は、非標識データの大規模なコレクションから … 続きを読む
Specification and Evaluation of Multi-Agent LLM Systems — Prototype and Cybersecurity Applications
要約 LLMの最近の進歩は、たとえば、最新のOpenaiおよびDeepseekモ … 続きを読む
VGR: Visual Grounded Reasoning
要約 マルチモーダルの考え方(COT)の推論の分野では、既存のアプローチは主に言 … 続きを読む