-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.LG」カテゴリーアーカイブ
Detection and Geographic Localization of Natural Objects in the Wild: A Case Study on Palms
要約 手のひらは、熱帯の森林の健康、生物多様性、および地元の経済と世界の森林製品 … 続きを読む
Natural Language Generation from Visual Sequences: Challenges and Future Directions
要約 自然言語を使用して視覚コンテンツについて話す能力は、人間の知能の中核であり … 続きを読む
LieRE: Generalizing Rotary Position Encodings
要約 トランスアーキテクチャは、トークンの依存関係をキャプチャするために位置エン … 続きを読む
Improved Fine-Tuning of Large Multimodal Models for Hateful Meme Detection
要約 憎しみのあるミームはインターネット上の重要な懸念となっており、堅牢な自動検 … 続きを読む
BenthicNet: A global compilation of seafloor images for deep learning applications
要約 水中イメージングの進歩により、重要な底生生態系の監視に必要な広範な海底画像 … 続きを読む
Understanding and Rectifying Safety Perception Distortion in VLMs
要約 最近の研究では、ビジョンモデル(VLM)がビジョンモダリティを統合した後、 … 続きを読む
Magma: A Foundation Model for Multimodal AI Agents
要約 マグマは、デジタルワールドと物理世界の両方でマルチモーダルAIエージェント … 続きを読む
Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization
要約 大型ビジョン言語モデル(VLMS)の出現により、視覚的モダリティを統合する … 続きを読む
Scaling Test-Time Compute Without Verification or RL is Suboptimal
要約 テスト時間計算のスケーリングに大きな進歩にもかかわらず、コミュニティで継続 … 続きを読む