cs.CL」カテゴリーアーカイブ

Quizzard@INOVA Challenge 2025 — Track A: Plug-and-Play Technique in Interleaved Multi-Image Model

要約 このペーパーでは、2つの主要な目的について説明します。 第一に、マルチイメ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Quizzard@INOVA Challenge 2025 — Track A: Plug-and-Play Technique in Interleaved Multi-Image Model はコメントを受け付けていません

Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation

要約 Vision-Language Translation(VLT)は、画像に … 続きを読む

カテゴリー: cs.CL, cs.CV | Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation はコメントを受け付けていません

SAP-Bench: Benchmarking Multimodal Large Language Models in Surgical Action Planning

要約 MLLM研究の進歩を促進するには、効果的な評価が重要です。 視覚入力から将 … 続きを読む

カテゴリー: cs.CL, cs.CV | SAP-Bench: Benchmarking Multimodal Large Language Models in Surgical Action Planning はコメントを受け付けていません

VGR: Visual Grounded Reasoning

要約 マルチモーダルの考え方(COT)の推論の分野では、既存のアプローチは主に言 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | VGR: Visual Grounded Reasoning はコメントを受け付けていません

Persistent Topological Features in Large Language Models

要約 大規模な言語モデルの意思決定プロセスを理解することは、広範なアプリケーショ … 続きを読む

カテゴリー: cs.CG, cs.CL, cs.LG | Persistent Topological Features in Large Language Models はコメントを受け付けていません

Accelerating Diffusion Large Language Models with SlowFast Sampling: The Three Golden Principles

要約 拡散ベースの言語モデル(DLLM)は、並列トークンの生成を有効にし、推論潜 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Accelerating Diffusion Large Language Models with SlowFast Sampling: The Three Golden Principles はコメントを受け付けていません

MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning

要約 このホワイトペーパーでは、画像生成モデルの推論能力を調査するために、大規模 … 続きを読む

カテゴリー: cs.CL, cs.CV | MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning はコメントを受け付けていません

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

要約 ビジョン言語モデル(VLM)は、自律運転の約束を示していますが、幻覚との闘 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.RO | AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving はコメントを受け付けていません

PRSA: Prompt Stealing Attacks against Real-World Prompt Services

要約 最近、大規模な言語モデル(LLM)は、その並外れた能力について広範囲の注目 … 続きを読む

カテゴリー: cs.CL, cs.CR | PRSA: Prompt Stealing Attacks against Real-World Prompt Services はコメントを受け付けていません

Inferring Adjective Hypernyms with Language Models to Increase the Connectivity of Open English Wordnet

要約 Open English WordNetは、言語リンクされたオープンデータ … 続きを読む

カテゴリー: cs.CL | Inferring Adjective Hypernyms with Language Models to Increase the Connectivity of Open English Wordnet はコメントを受け付けていません