「cs.CL」カテゴリーアーカイブ

Quizzard@INOVA Challenge 2025 — Track A: Plug-and-Play Technique in Interleaved Multi-Image Model

投稿日: 2025年6月16日作成者: jarxiv

要約このペーパーでは、2つの主要な目的について説明します。第一に、マルチイメ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation

投稿日: 2025年6月16日作成者: jarxiv

要約 Vision-Language Translation（VLT）は、画像に … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

SAP-Bench: Benchmarking Multimodal Large Language Models in Surgical Action Planning

投稿日: 2025年6月16日作成者: jarxiv

要約 MLLM研究の進歩を促進するには、効果的な評価が重要です。視覚入力から将 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

VGR: Visual Grounded Reasoning

投稿日: 2025年6月16日作成者: jarxiv

要約マルチモーダルの考え方（COT）の推論の分野では、既存のアプローチは主に言 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Persistent Topological Features in Large Language Models

投稿日: 2025年6月16日作成者: jarxiv

要約大規模な言語モデルの意思決定プロセスを理解することは、広範なアプリケーショ … 続きを読む →

カテゴリー: cs.CG, cs.CL, cs.LG | コメントを受け付けていません

Accelerating Diffusion Large Language Models with SlowFast Sampling: The Three Golden Principles

投稿日: 2025年6月16日作成者: jarxiv

要約拡散ベースの言語モデル（DLLM）は、並列トークンの生成を有効にし、推論潜 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning

投稿日: 2025年6月16日作成者: jarxiv

要約このホワイトペーパーでは、画像生成モデルの推論能力を調査するために、大規模 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

投稿日: 2025年6月13日作成者: jarxiv

要約ビジョン言語モデル（VLM）は、自律運転の約束を示していますが、幻覚との闘 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.RO | コメントを受け付けていません

PRSA: Prompt Stealing Attacks against Real-World Prompt Services

投稿日: 2025年6月13日作成者: jarxiv

要約最近、大規模な言語モデル（LLM）は、その並外れた能力について広範囲の注目 … 続きを読む →

カテゴリー: cs.CL, cs.CR | コメントを受け付けていません

Inferring Adjective Hypernyms with Language Models to Increase the Connectivity of Open English Wordnet

投稿日: 2025年6月13日作成者: jarxiv

要約 Open English WordNetは、言語リンクされたオープンデータ … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

「cs.CL」カテゴリーアーカイブ

Quizzard@INOVA Challenge 2025 — Track A: Plug-and-Play Technique in Interleaved Multi-Image Model

Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation

SAP-Bench: Benchmarking Multimodal Large Language Models in Surgical Action Planning

VGR: Visual Grounded Reasoning

Persistent Topological Features in Large Language Models

Accelerating Diffusion Large Language Models with SlowFast Sampling: The Three Golden Principles

MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

PRSA: Prompt Stealing Attacks against Real-World Prompt Services

Inferring Adjective Hypernyms with Language Models to Increase the Connectivity of Open English Wordnet

最近の投稿

最近のコメント

アーカイブ

カテゴリー