-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Typography Leads Semantic Diversifying: Amplifying Adversarial Transferability across Multimodal Large Language Models
要約 最近、マルチモーダル大規模言語モデル (MLLM) は、その卓越したクロス … 続きを読む
カテゴリー: cs.CV
Typography Leads Semantic Diversifying: Amplifying Adversarial Transferability across Multimodal Large Language Models はコメントを受け付けていません
Automated Spinal MRI Labelling from Reports Using a Large Language Model
要約 私たちは、大規模な言語モデルを使用して放射線医学レポートからのラベルの抽出 … 続きを読む
Frontiers in Intelligent Colonoscopy
要約 結腸内視鏡検査は現在、結腸直腸がんの最も感度の高いスクリーニング法の 1 … 続きを読む
LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias
要約 我々は、ラージ ビュー合成モデル (LVSM) を提案します。これは、スパ … 続きを読む
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss
要約 対比損失は表現学習の強力なアプローチであり、バッチ サイズが大きくなると、 … 続きを読む
カテゴリー: cs.CV
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss はコメントを受け付けていません
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
要約 Large Vision-Language Model (LVLM) では … 続きを読む
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation
要約 英語以外の言語での大規模マルチモーダル モデル (LMM) に関する研究を … 続きを読む
SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes
要約 我々は、3D ガウス スプラッティング (3DGS) と物理ベース レンダ … 続きを読む
カテゴリー: cs.CV
SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes はコメントを受け付けていません
Altogether: Image Captioning via Re-aligning Alt-text
要約 このペーパーでは、画像キャプションの品質を向上させるための合成データの作成 … 続きを読む
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance
要約 マルチモーダル大規模言語モデル (MLLM) は、幅広い領域にわたる視覚言 … 続きを読む
カテゴリー: cs.CV
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance はコメントを受け付けていません