-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Exploring Diffusion Transformer Designs via Grafting
要約 モデルアーキテクチャの設計には、オペレーター(注意、畳み込みなど)や構成( … 続きを読む
Single GPU Task Adaptation of Pathology Foundation Models for Whole Slide Image Analysis
要約 Pathology Foundationモデル(PFM)は、スライド画像全 … 続きを読む
カテゴリー: cs.CV
Single GPU Task Adaptation of Pathology Foundation Models for Whole Slide Image Analysis はコメントを受け付けていません
MokA: Multimodal Low-Rank Adaptation for MLLMs
要約 この論文では、現在の最新のマルチモーダル微調整方法が主要な制限によって妨げ … 続きを読む
カテゴリー: cs.CV
MokA: Multimodal Low-Rank Adaptation for MLLMs はコメントを受け付けていません
Vision-Based Autonomous MM-Wave Reflector Using ArUco-Driven Angle-of-Arrival Estimation
要約 非表示(NLOS)条件における信頼できるミリ波(MMWAVE)コミュニケー … 続きを読む
カテゴリー: cs.CV
Vision-Based Autonomous MM-Wave Reflector Using ArUco-Driven Angle-of-Arrival Estimation はコメントを受け付けていません
Quantifying Cross-Modality Memorization in Vision-Language Models
要約 トレーニング中にニューラルネットワークがどのように、どのように覚えているか … 続きを読む
Grounding Beyond Detection: Enhancing Contextual Understanding in Embodied 3D Grounding
要約 具体化された3D接地は、自我中心の視点から人間の指示に記載されているターゲ … 続きを読む
カテゴリー: cs.CV
Grounding Beyond Detection: Enhancing Contextual Understanding in Embodied 3D Grounding はコメントを受け付けていません
DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models
要約 マルチモーダル大手言語モデル(MLLM)は、視覚データとテキストデータの統 … 続きを読む
OGGSplat: Open Gaussian Growing for Generalizable Reconstruction with Expanded Field-of-View
要約 スパースビューからセマンティックアウェア3Dシーンを再構築することは、仮想 … 続きを読む
カテゴリー: cs.CV
OGGSplat: Open Gaussian Growing for Generalizable Reconstruction with Expanded Field-of-View はコメントを受け付けていません
Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning
要約 最近、ビデオ拡散トランスのブレークスルーは、多様な運動世代に顕著な能力を示 … 続きを読む
カテゴリー: cs.CV
Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning はコメントを受け付けていません
Towards Vision-Language-Garment Models For Web Knowledge Garment Understanding and Generation
要約 マルチモーダルファンデーションモデルは強力な一般化を実証していますが、衣服 … 続きを読む
カテゴリー: cs.CV
Towards Vision-Language-Garment Models For Web Knowledge Garment Understanding and Generation はコメントを受け付けていません