-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Perceptual Quality Assessment for Embodied AI
要約 具体化されたAIは近年急速に発達していますが、それでも主に研究所に展開され … 続きを読む
Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts
要約 シーンベースのビデオ生成の最近の進歩により、システムは構造化されたプロンプ … 続きを読む
カテゴリー: cs.CV
Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts はコメントを受け付けていません
Retrieval-Augmented Perception: High-Resolution Image Perception Meets Visual RAG
要約 高解像度(HR)画像認識は、マルチモーダル大手言語モデル(MLLM)の重要 … 続きを読む
DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms
要約 Dongbaの絵文字は、世界でまだ使用されている唯一の絵文字スクリプトです … 続きを読む
カテゴリー: cs.CV
DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms はコメントを受け付けていません
From EduVisBench to EduVisAgent: A Benchmark and Multi-Agent Framework for Pedagogical Visualization
要約 拡散モデルや大規模な視覚言語モデル(LVLMS)などの基礎モデル(FMS) … 続きを読む
Fact-R1: Towards Explainable Video Misinformation Detection with Deep Reasoning
要約 ソーシャルメディアでのマルチモーダル誤った情報の急速な広がりは、懸念の高ま … 続きを読む
LaViDa: A Large Diffusion Language Model for Multimodal Understanding
要約 最新のビジョン言語モデル(VLM)は、視覚的な推論を必要とする幅広いタスク … 続きを読む
カテゴリー: cs.CV
LaViDa: A Large Diffusion Language Model for Multimodal Understanding はコメントを受け付けていません
More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding
要約 大規模な言語モデル(LLM)が3Dの物理的世界を理解できるようにすることは … 続きを読む
ATR-Bench: A Federated Learning Benchmark for Adaptation, Trust, and Reasoning
要約 Federated Learning(FL)は、分散型の参加者全体でデータ … 続きを読む
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
要約 強化学習(RL)は、ビジョン言語モデル(VLM)の推論を強化するための効果 … 続きを読む