-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CL」カテゴリーアーカイブ
SimLayerKV: A Simple Framework for Layer-Level KV Cache Reduction
要約 大規模言語モデル (LLM) の最近の進歩により、長いコンテキストを処理で … 続きを読む
Towards Multilingual LLM Evaluation for European Languages
要約 大規模言語モデル (LLM) の台頭により、多数の言語やタスクにわたって自 … 続きを読む
How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs
要約 Transformer ベースの大規模言語モデル (LLM) はさまざまな … 続きを読む
H2OVL-Mississippi Vision Language Models Technical Report
要約 小型ビジョン言語モデル (VLM) は、企業の商業文書や画像を処理するため … 続きを読む
Granular Privacy Control for Geolocation with Vision Language Models
要約 ビジョン言語モデル (VLM) は、情報を求める質問に答える機能が急速に進 … 続きを読む
VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks
要約 異種入力 (画像、テキスト、音声など) から推論を導き出すことは、人間が日 … 続きを読む
Pose-Based Sign Language Appearance Transfer
要約 手話の内容を保持したまま、手話の骨格ポーズで署名者の外観を転送する方法を紹 … 続きを読む
Beyond Coarse-Grained Matching in Video-Text Retrieval
要約 ビデオテキストの検索は大幅に進歩しましたが、キャプションの微妙な違いを識別 … 続きを読む
Exploring the Design Space of Visual Context Representation in Video MLLMs
要約 ビデオ マルチモーダル大規模言語モデル (MLLM) は、さまざまな下流タ … 続きを読む
Harnessing Webpage UIs for Text-Rich Visual Understanding
要約 マルチモーダル大規模言語モデル (MLLM) が構造化環境と効果的に対話す … 続きを読む