-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CL」カテゴリーアーカイブ
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models
要約 大規模なビジョンおよび言語モデルにより、完全に監視されたゼロショットの視覚 … 続きを読む
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos
要約 マルチモーダル言語言語モデル (MLLM) は、「ワールド モデル」、つま … 続きを読む
What If We Recaption Billions of Web Images with LLaMA-3?
要約 Web クロールされた画像とテキストのペアは本質的にノイズが多くなります。 … 続きを読む
Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability in Text-to-Image Generation
要約 拡散モデルはテキストから画像への生成における最先端技術ですが、その知覚の変 … 続きを読む
CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples
要約 私たちは、対比モデルと生成マルチモーダル モデルの両方の視覚言語的構成推論 … 続きを読む
3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination
要約 言語と 3D 認識の統合は、物理世界を理解し、相互作用する身体化されたエー … 続きを読む
AI Sandbagging: Language Models can Strategically Underperform on Evaluations
要約 信頼できる機能評価は AI システムの安全性を確保するために不可欠であり、 … 続きを読む
CADS: A Systematic Literature Review on the Challenges of Abstractive Dialogue Summarization
要約 抽象的な対話の要約は、会話を有益で簡潔な要約に抽出するタスクです。 このテ … 続きを読む
DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering
要約 検索拡張生成 (RAG) は、質問応答 (QA) などの知識集約型タスクに … 続きを読む
EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning
要約 汎用人工知能 (AGI) の追求は、優れた推論、一般化能力、およびマルチモ … 続きを読む