投稿者「jarxiv」のアーカイブ

MIEB: Massive Image Embedding Benchmark

要約 画像表現は、多くの場合、見返りのあるタスク固有のプロトコルによって評価され … 続きを読む

カテゴリー: cs.CL, cs.CV | MIEB: Massive Image Embedding Benchmark はコメントを受け付けていません

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

要約 Native Multimodal Pre-Trainingパラダイムを備 … 続きを読む

カテゴリー: cs.CV | InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models はコメントを受け付けていません

REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

要約 この論文では、基本的な質問に取り組んでいます。「潜在的な拡散モデルと、変分 … 続きを読む

カテゴリー: cs.CV, cs.LG | REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers はコメントを受け付けていません

Decoupled Diffusion Sparks Adaptive Scene Generation

要約 制御可能なシーンの生成は、自律運転のために多様なデータ収集のコストを大幅に … 続きを読む

カテゴリー: cs.CV | Decoupled Diffusion Sparks Adaptive Scene Generation はコメントを受け付けていません

DNF-Avatar: Distilling Neural Fields for Real-time Animatable Avatar Relighting

要約 Monocular Videosから信頼できるアニメーション可能な人間のア … 続きを読む

カテゴリー: cs.CV | DNF-Avatar: Distilling Neural Fields for Real-time Animatable Avatar Relighting はコメントを受け付けていません

FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation

要約 最近のオープンボキャブラリーセマンティックセグメンテーション(OVSS)モ … 続きを読む

カテゴリー: cs.CV, cs.LG | FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation はコメントを受け付けていません

RINGO: Real-time Navigation with a Guiding Trajectory for Aerial Manipulators in Unknown Environments

要約 制約された環境での航空操作者のモーション計画は、通常、既知の環​​境に限定 … 続きを読む

カテゴリー: cs.RO | RINGO: Real-time Navigation with a Guiding Trajectory for Aerial Manipulators in Unknown Environments はコメントを受け付けていません

Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

要約 マルチモーダルLLMS(MLLM)を使用してシステムを提示して、時間的変化 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.CY | Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images はコメントを受け付けていません

SeaView: Software Engineering Agent Visual Interface for Enhanced Workflow

要約 以降、SWEエージェントであるAuto-Recresusision LLM … 続きを読む

カテゴリー: cs.LG, cs.SE | SeaView: Software Engineering Agent Visual Interface for Enhanced Workflow はコメントを受け付けていません

Analyzing 16,193 LLM Papers for Fun and Profits

要約 大規模な言語モデル(LLM)は、コンピューターサイエンスの研究の景観を再構 … 続きを読む

カテゴリー: cs.CL, cs.DL | Analyzing 16,193 LLM Papers for Fun and Profits はコメントを受け付けていません