投稿者「jarxiv」のアーカイブ

PEDANTIC: A Dataset for the Automatic Examination of Definiteness in Patent Claims

要約 特許請求は、発明の保護範囲を定義します。 請求に曖昧さがある場合、それは特 … 続きを読む

カテゴリー: cs.CL | PEDANTIC: A Dataset for the Automatic Examination of Definiteness in Patent Claims はコメントを受け付けていません

Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

要約 大規模な言語モデルにおける専門家(MOE)の混合物の外科は、はるかに大きな … 続きを読む

カテゴリー: cs.CL | Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity はコメントを受け付けていません

MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on

要約 Video Virtual Try-On(VVT)は、連続したビデオフレー … 続きを読む

カテゴリー: cs.CV | MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on はコメントを受け付けていません

HoliTom: Holistic Token Merging for Fast Video Large Language Models

要約 ビデオ大規模な言語モデル(ビデオLLM)はビデオ理解に優れていますが、冗長 … 続きを読む

カテゴリー: cs.CV | HoliTom: Holistic Token Merging for Fast Video Large Language Models はコメントを受け付けていません

Visuospatial Cognitive Assistant

要約 ビデオベースの空間認知は、ロボット工学と具体化されたAIにとって不可欠です … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Visuospatial Cognitive Assistant はコメントを受け付けていません

Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts

要約 マルチモーダルの大手言語モデル(MLLM)は一般的なビジョン言語タスクに優 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts はコメントを受け付けていません

AgriFM: A Multi-source Temporal Remote Sensing Foundation Model for Crop Mapping

要約 正確な作物マッピングは、個々のフィールドテクスチャから景観レベルのコンテキ … 続きを読む

カテゴリー: cs.CV, cs.LG | AgriFM: A Multi-source Temporal Remote Sensing Foundation Model for Crop Mapping はコメントを受け付けていません

Diagnosing and Resolving Cloud Platform Instability with Multi-modal RAG LLMs

要約 今日のクラウドホストのアプリケーションとサービスは複雑なシステムであり、パ … 続きを読む

カテゴリー: cs.AI, cs.OS | Diagnosing and Resolving Cloud Platform Instability with Multi-modal RAG LLMs はコメントを受け付けていません

Automating eHMI Action Design with LLMs for Automated Vehicle Communication

要約 自動化された車両(AVS)と他の道路利用者間に明示的な通信チャネルがないた … 続きを読む

カテゴリー: cs.HC, cs.RO | Automating eHMI Action Design with LLMs for Automated Vehicle Communication はコメントを受け付けていません

ManiTaskGen: A Comprehensive Task Generator for Benchmarking and Improving Vision-Language Agents on Embodied Decision-Making

要約 任意のタスクを達成できる具体化されたエージェントを構築することは、具体化さ … 続きを読む

カテゴリー: cs.RO | ManiTaskGen: A Comprehensive Task Generator for Benchmarking and Improving Vision-Language Agents on Embodied Decision-Making はコメントを受け付けていません