投稿者「jarxiv」のアーカイブ

ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning

要約 テキストからビデオへの生成は、普及モデルを通じて目覚ましい進歩を遂げました … 続きを読む

カテゴリー: cs.CV | ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning はコメントを受け付けていません

EditAR: Unified Conditional Generation with Autoregressive Models

要約 制御可能な画像の生成と編集における最近の進歩は、主に拡散ベースの方法によっ … 続きを読む

カテゴリー: cs.CV | EditAR: Unified Conditional Generation with Autoregressive Models はコメントを受け付けていません

Planarian Neural Networks: Evolutionary Patterns from Basic Bilateria Shaping Modern Artificial Neural Network Architectures

要約 この研究では、生物学的ニューラル ネットワークと同様の進化パターンを持つ人 … 続きを読む

カテゴリー: 68T07, cs.AI, cs.CV, cs.LG, cs.NE | Planarian Neural Networks: Evolutionary Patterns from Basic Bilateria Shaping Modern Artificial Neural Network Architectures はコメントを受け付けていません

Click2Mask: Local Editing with Dynamic Mask Generation

要約 生成モデルの最近の進歩により、画像の生成と編集に革命が起こり、専門家でなく … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG | Click2Mask: Local Editing with Dynamic Mask Generation はコメントを受け付けていません

LiLMaps: Learnable Implicit Language Maps

要約 ロボット工学の現在のトレンドの 1 つは、大規模言語モデル (LLM) を … 続きを読む

カテゴリー: cs.LG, cs.RO | LiLMaps: Learnable Implicit Language Maps はコメントを受け付けていません

Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models

要約 私たちは、状態空間モデル (SSM) の基礎に基づいて構築された、新しい … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models はコメントを受け付けていません

MADation: Face Morphing Attack Detection with Foundation Models

要約 近年、顔認識アルゴリズムのパフォーマンスが大幅に向上しているにもかかわらず … 続きを読む

カテゴリー: cs.CR, cs.CV | MADation: Face Morphing Attack Detection with Foundation Models はコメントを受け付けていません

SenseRAG: Constructing Environmental Knowledge Bases with Proactive Querying for LLM-Based Autonomous Driving

要約 この研究は、大規模言語モデル (LLM) の文脈推論機能を活用することで、 … 続きを読む

カテゴリー: cs.AI, cs.RO | SenseRAG: Constructing Environmental Knowledge Bases with Proactive Querying for LLM-Based Autonomous Driving はコメントを受け付けていません

Strip R-CNN: Large Strip Convolution for Remote Sensing Object Detection

要約 急速な発展が見られる一方で、リモートセンシングによる物体検出は依然として高 … 続きを読む

カテゴリー: cs.CV | Strip R-CNN: Large Strip Convolution for Remote Sensing Object Detection はコメントを受け付けていません

LiLMaps: Learnable Implicit Language Maps

要約 ロボット工学の現在のトレンドの 1 つは、大規模言語モデル (LLM) を … 続きを読む

カテゴリー: cs.LG, cs.RO | LiLMaps: Learnable Implicit Language Maps はコメントを受け付けていません