-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Adaptive Layer Selection for Efficient Vision Transformer Fine-Tuning
要約 最近、ビジョン トランスフォーマー (ViT) に基づく基礎モデルが広く利 … 続きを読む
LLM-PCGC: Large Language Model-based Point Cloud Geometry Compression
要約 効果的な点群圧縮の鍵は、複雑な 3D データ構造と一致する堅牢なコンテキス … 続きを読む
MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness
要約 ビジョン トランスフォーマー (ViT) は、さまざまなタスクで優れたパフ … 続きを読む
Beyond the Hype: A dispassionate look at vision-language models in medical scenario
要約 Large Vision-Language Model (LVLM) の最 … 続きを読む
A Medical Data-Effective Learning Benchmark for Highly Efficient Pre-training of Foundation Models
要約 大規模なデータセットで事前トレーニングされた基盤モデルは、前例のない一般化 … 続きを読む
Correspondence-Guided SfM-Free 3D Gaussian Splatting for NVS
要約 Structure-from-Motion (SfM) 前処理カメラ ポー … 続きを読む
A Disease-Specific Foundation Model Using Over 100K Fundus Images: Release and Validation for Abnormality and Multi-Disease Classification on Downstream Tasks
要約 網膜画像に適用された人工知能は、網膜の状態の兆候や症状を認識し、眼疾患や全 … 続きを読む
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models
要約 このレポートでは、大規模マルチモーダル モデル (LMM) を開発するため … 続きを読む
MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability
要約 数学ビデオの字幕など、テキストベースの文書における数式の可読性を向上させる … 続きを読む
MAG-SQL: Multi-Agent Generative Approach with Soft Schema Linking and Iterative Sub-SQL Refinement for Text-to-SQL
要約 最近のインコンテキスト学習ベースの手法は、Text-to-SQL タスクで … 続きを読む