-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CL」カテゴリーアーカイブ
CultureBank: An Online Community-Driven Knowledge Base Towards Culturally Aware Language Technologies
要約 言語モデルの文化的認識を強化するために、さまざまなオンライン コミュニティ … 続きを読む
XFT: Unlocking the Power of Code Instruction Tuning by Simply Merging Upcycled Mixture-of-Experts
要約 アップサイクルされた専門家混合 (MoE) をマージするだけで、命令調整さ … 続きを読む
Aligning LLM Agents by Learning Latent Preference from User Edits
要約 私たちは、エージェントの出力に対して行われたユーザー編集に基づいて、言語エ … 続きを読む
Visual Grounding Methods for VQA are Working for the Wrong Reasons!
要約 既存のビジュアル質問応答 (VQA) 手法は、正しい理由から正しい答えを生 … 続きを読む
Subobject-level Image Tokenization
要約 トランスフォーマーベースのビジョンモデルは通常、画像を入力単位として固定サ … 続きを読む
MedDr: Diagnosis-Guided Bootstrapping for Large-Scale Medical Vision-Language Learning
要約 大規模なビジョン言語モデルの急速な進歩により、さまざまなタスクにわたって驚 … 続きを読む
Re-Thinking Inverse Graphics With Large Language Models
要約 逆グラフィックス (画像を物理変数に反転し、レンダリング時に観察されたシー … 続きを読む
VideoXum: Cross-modal Visual and Textural Summarization of Videos
要約 ビデオの要約は、ソースビデオから最も重要な情報を抽出して、要約されたクリッ … 続きを読む
Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models
要約 命令追従モデルの最近の進歩により、ユーザーとモデルの対話がよりユーザーフレ … 続きを読む
CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios
要約 Medical Vision-Language Pretraining ( … 続きを読む