-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CL」カテゴリーアーカイブ
Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models
要約 大規模言語モデル (LLM) の優れた機能に関する最近の声明は、通常、オー … 続きを読む
Code Pretraining Improves Entity Tracking Abilities of Language Models
要約 最近の研究では、コード上で言語モデルを事前トレーニングすると、自然言語で表 … 続きを読む
Enhancing Vision Models for Text-Heavy Content Understanding and Interaction
要約 複数の画像を含むテキストの多いビジュアル コンテンツを操作して理解すること … 続きを読む
Calibrated Self-Rewarding Vision Language Models
要約 大規模ビジョン言語モデル (LVLM) は、事前トレーニングされた大規模言 … 続きを読む
You Only Scan Once: Efficient Multi-dimension Sequential Modeling with LightNet
要約 線形注意メカニズムは、線形計算の複雑さと速度の向上により、因果言語モデルで … 続きを読む
II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering
要約 Visual Question Answering (VQA) には、視覚 … 続きを読む
Generalization Beyond Data Imbalance: A Controlled Study on CLIP for Transferable Insights
要約 Web スケールのビジョン言語データセット間には、当然ながら深刻なデータの … 続きを読む
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
要約 汎用人工知能の探求において、マルチモーダル大規模言語モデル (MLLM) … 続きを読む
Iterative Feature Boosting for Explainable Speech Emotion Recognition
要約 音声感情認識 (SER) では、実際の重要性を考慮せずに事前定義された特徴 … 続きを読む
Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation
要約 Zero-Shot Object Navigation (ZSON) を使 … 続きを読む