投稿者「jarxiv」のアーカイブ

Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise

要約 生成モデリングは、ランダム ノイズを構造化された出力に変換することを目的と … 続きを読む

カテゴリー: cs.CV | コメントする

MangaNinja: Line Art Colorization with Precise Reference Following

要約 拡散モデルから派生した MangaNinjia は、リファレンスに基づいた … 続きを読む

カテゴリー: cs.CV | コメントする

DAViD: Modeling Dynamic Affordance of 3D Objects using Pre-trained Video Diffusion Models

要約 AI が日常生活を改善するには、人間の物体使用能力を理解することが不可欠で … 続きを読む

カテゴリー: cs.CV | コメントする

Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation

要約 シミュレーションと現実のギャップは、シミュレーションにおけるロボット学習に … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする

WebWalker: Benchmarking LLMs in Web Traversal

要約 検索拡張生成 (RAG) は、オープンドメインの質問応答におけるタスク全体 … 続きを読む

カテゴリー: cs.AI, cs.CL | コメントする

Rethinking Decoders for Transformer-based Semantic Segmentation: A Compression Perspective

要約 Transformer ベースのセマンティック セグメンテーションの最先端 … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする

Cost-Effective Robotic Handwriting System with AI Integration

要約 この論文では、人間のような手書きを高精度で再現するように設計された、コスト … 続きを読む

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY | コメントする

GazeGrasp: DNN-Driven Robotic Grasping with Wearable Eye-Gaze Interface

要約 我々は、運動障害を持つ個人が視線を使用して協働ロボットを制御できるようにす … 続きを読む

カテゴリー: cs.RO | コメントする

Synthesis and Analysis of Data as Probability Measures with Entropy-Regularized Optimal Transport

要約 エントロピー正則化された Wasserstein-2 コストとその不偏バー … 続きを読む

カテゴリー: cs.LG, stat.ML | コメントする

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

要約 ビジョン言語モデル (VLM) の開発は、大規模で多様なマルチモーダル デ … 続きを読む

カテゴリー: cs.CL, cs.CV | コメントする