cs.AI」カテゴリーアーカイブ

Large Language Models Empowered Personalized Web Agents

要約 Webエージェントは、ユーザーの命令に基づいてWebタスクの完了を自動化す … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.IR | Large Language Models Empowered Personalized Web Agents はコメントを受け付けていません

Lightweight Embedded FPGA Deployment of Learned Image Compression with Knowledge Distillation and Hybrid Quantization

要約 学習可能な画像圧縮(LIC)は、RD効率で標準化されたビデオコーデックを上 … 続きを読む

カテゴリー: cs.AI, cs.CV | Lightweight Embedded FPGA Deployment of Learned Image Compression with Knowledge Distillation and Hybrid Quantization はコメントを受け付けていません

Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations

要約 分散除外検出に関する以前の研究(OODD)は、主に単一モダリティモデルに焦 … 続きを読む

カテゴリー: cs.AI, cs.CV | Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations はコメントを受け付けていません

Dual-domain Multi-path Self-supervised Diffusion Model for Accelerated MRI Reconstruction

要約 磁気共鳴イメージング(MRI)は重要な診断ツールですが、本質的に長い獲得時 … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | Dual-domain Multi-path Self-supervised Diffusion Model for Accelerated MRI Reconstruction はコメントを受け付けていません

MC-LLaVA: Multi-Concept Personalized Vision-Language Model

要約 現在のビジョン言語モデル(VLM)は、視覚的な質問応答など、さまざまなタス … 続きを読む

カテゴリー: cs.AI, cs.CV | MC-LLaVA: Multi-Concept Personalized Vision-Language Model はコメントを受け付けていません

STEVE: A Step Verification Pipeline for Computer-use Agent Training

要約 グラフィカルユーザーインターフェイスを自律的に操作するためにAIエージェン … 続きを読む

カテゴリー: cs.AI, cs.CV | STEVE: A Step Verification Pipeline for Computer-use Agent Training はコメントを受け付けていません

Visual Position Prompt for MLLM based Visual Grounding

要約 マルチモーダルの大手言語モデル(MLLM)は、さまざまな画像関連のタスクに … 続きを読む

カテゴリー: cs.AI, cs.CV | Visual Position Prompt for MLLM based Visual Grounding はコメントを受け付けていません

Exploring the Integration of Key-Value Attention Into Pure and Hybrid Transformers for Semantic Segmentation

要約 CNNは長い間画像処理の最先端と見なされていましたが、トランスアーキテクチ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Exploring the Integration of Key-Value Attention Into Pure and Hybrid Transformers for Semantic Segmentation はコメントを受け付けていません

AdaWorld: Learning Adaptable World Models with Latent Actions

要約 世界モデルは、アクション制御された予測モデルを学ぶことを目指しており、イン … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | AdaWorld: Learning Adaptable World Models with Latent Actions はコメントを受け付けていません

Video-T1: Test-Time Scaling for Video Generation

要約 トレーニングデータ、モデルサイズ、および計算コストの増加のスケール機能によ … 続きを読む

カテゴリー: cs.AI, cs.CV | Video-T1: Test-Time Scaling for Video Generation はコメントを受け付けていません