cs.CL」カテゴリーアーカイブ

SimLayerKV: A Simple Framework for Layer-Level KV Cache Reduction

要約 大規模言語モデル (LLM) の最近の進歩により、長いコンテキストを処理で … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | SimLayerKV: A Simple Framework for Layer-Level KV Cache Reduction はコメントを受け付けていません

Towards Multilingual LLM Evaluation for European Languages

要約 大規模言語モデル (LLM) の台頭により、多数の言語やタスクにわたって自 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Towards Multilingual LLM Evaluation for European Languages はコメントを受け付けていません

How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs

要約 Transformer ベースの大規模言語モデル (LLM) はさまざまな … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs はコメントを受け付けていません

H2OVL-Mississippi Vision Language Models Technical Report

要約 小型ビジョン言語モデル (VLM) は、企業の商業文書や画像を処理するため … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | H2OVL-Mississippi Vision Language Models Technical Report はコメントを受け付けていません

Granular Privacy Control for Geolocation with Vision Language Models

要約 ビジョン言語モデル (VLM) は、情報を求める質問に答える機能が急速に進 … 続きを読む

カテゴリー: cs.CL, cs.CV | Granular Privacy Control for Geolocation with Vision Language Models はコメントを受け付けていません

VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks

要約 異種入力 (画像、テキスト、音声など) から推論を導き出すことは、人間が日 … 続きを読む

カテゴリー: cs.CL, cs.CV | VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks はコメントを受け付けていません

Pose-Based Sign Language Appearance Transfer

要約 手話の内容を保持したまま、手話の骨格ポーズで署名者の外観を転送する方法を紹 … 続きを読む

カテゴリー: cs.CL, cs.CV | Pose-Based Sign Language Appearance Transfer はコメントを受け付けていません

Beyond Coarse-Grained Matching in Video-Text Retrieval

要約 ビデオテキストの検索は大幅に進歩しましたが、キャプションの微妙な違いを識別 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Beyond Coarse-Grained Matching in Video-Text Retrieval はコメントを受け付けていません

Exploring the Design Space of Visual Context Representation in Video MLLMs

要約 ビデオ マルチモーダル大規模言語モデル (MLLM) は、さまざまな下流タ … 続きを読む

カテゴリー: cs.CL, cs.CV | Exploring the Design Space of Visual Context Representation in Video MLLMs はコメントを受け付けていません

Harnessing Webpage UIs for Text-Rich Visual Understanding

要約 マルチモーダル大規模言語モデル (MLLM) が構造化環境と効果的に対話す … 続きを読む

カテゴリー: cs.CL, cs.CV | Harnessing Webpage UIs for Text-Rich Visual Understanding はコメントを受け付けていません