-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays
要約 大規模な視覚言語モデル(LVLMS)の最近の進捗により、レポート生成や視覚 … 続きを読む
DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations
要約 対面での会話では、個人はスピーキングとリスニングの役割を切り替える必要があ … 続きを読む
Towards more transferable adversarial attack in black-box manner
要約 敵対的な攻撃は十分に標準のドメインになり、モデルの堅牢性の評価ベースライン … 続きを読む
F-ANcGAN: An Attention-Enhanced Cycle Consistent Generative Adversarial Architecture for Synthetic Image Generation of Nanoparticles
要約 ナノ材料研究は、エネルギー、医学、材料科学にとって重要な分野になりつつあり … 続きを読む
カテゴリー: cond-mat.mtrl-sci, cs.CV, cs.LG, eess.IV
F-ANcGAN: An Attention-Enhanced Cycle Consistent Generative Adversarial Architecture for Synthetic Image Generation of Nanoparticles はコメントを受け付けていません
ViFOR: A Fourier-Enhanced Vision Transformer for Multi-Image Super-Resolution in Earth System
要約 スーパー解像度(SR)技術は、地球システムモデル(ESM)データの空間解像 … 続きを読む
カテゴリー: cs.CV
ViFOR: A Fourier-Enhanced Vision Transformer for Multi-Image Super-Resolution in Earth System はコメントを受け付けていません
Accelerating Learned Image Compression Through Modeling Neural Training Dynamics
要約 学習した画像圧縮(LIC)メソッドがますます計算的に要求が厳しくなるにつれ … 続きを読む
A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers
要約 人工知能(AI)は、医療イメージング診断において顕著な可能性を示しています … 続きを読む
Adapting SAM 2 for Visual Object Tracking: 1st Place Solution for MMVPR Challenge Multi-Modal Tracking
要約 モデル2(SAM2)を視覚オブジェクト追跡(投票)タスクにセグメントに適応 … 続きを読む
カテゴリー: cs.CV
Adapting SAM 2 for Visual Object Tracking: 1st Place Solution for MMVPR Challenge Multi-Modal Tracking はコメントを受け付けていません
MMXU: A Multi-Modal and Multi-X-ray Understanding Dataset for Disease Progression
要約 大規模な視覚言語モデル(LVLMS)は、特に視覚的な質問応答(MEDVQA … 続きを読む
Instructify: Demystifying Metadata to Visual Instruction Tuning Data Conversion
要約 視覚指導の調整(訪問)データは、一般的に人間のターンでインターリーブされた … 続きを読む
カテゴリー: cs.CV
Instructify: Demystifying Metadata to Visual Instruction Tuning Data Conversion はコメントを受け付けていません