-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
NExT-Search: Rebuilding User Feedback Ecosystem for Generative AI Search
要約 生成AI検索は、複雑なクエリに対するエンドツーエンドの回答を提供し、複数の … 続きを読む
Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning
要約 大規模な言語モデル(LLMS)は、チェーンオブシャート(COT)の推論を通 … 続きを読む
Does Acceleration Cause Hidden Instability in Vision Language Models? Uncovering Instance-Level Divergence Through a Large-Scale Empirical Study
要約 Vision-Language Models(VLMS)は、広範囲にわたる … 続きを読む
IP-Prompter: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting
要約 私たちが成長するにつれて私たちを魅了する物語とキャラクターは、ユニークなフ … 続きを読む
カテゴリー: cs.CV
IP-Prompter: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting はコメントを受け付けていません
Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model
要約 一般化された少数のショット3Dポイントクラウドセグメンテーション(GFS- … 続きを読む
カテゴリー: cs.CV
Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model はコメントを受け付けていません
Online Iterative Self-Alignment for Radiology Report Generation
要約 Radiology Report Generation(RRG)は、放射線 … 続きを読む
MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents
要約 Multimodal Document検索は、広範なドキュメントからの図、 … 続きを読む
Video Compression Commander: Plug-and-Play Inference Acceleration for Video Large Language Models
要約 ビデオ大規模な言語モデル(Videollm)はビデオ理解に優れていますが、 … 続きを読む
カテゴリー: cs.CV
Video Compression Commander: Plug-and-Play Inference Acceleration for Video Large Language Models はコメントを受け付けていません
VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank
要約 DeepSeek-R1は、強化学習を通じて、大きな言語モデル(LLMS)の … 続きを読む
カテゴリー: cs.CV
VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank はコメントを受け付けていません
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding
要約 ビジョン言語モデル(VLM)が日常生活にますます統合されるようになるにつれ … 続きを読む