-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
OmniBench: Towards The Future of Universal Omni-Language Models
要約 マルチモーダル大手言語モデル(MLLMS)の最近の進歩は、複数のモダリティ … 続きを読む
Cognitive Science-Inspired Evaluation of Core Capabilities for Object Understanding in AI
要約 私たちの世界モデルのコアコンポーネントの1つは、「直感的な物理学」です。オ … 続きを読む
Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data
要約 わずか数秒でテキストプロンプトから高品質の3Dメッシュを生成できるモデルを … 続きを読む
AMA-SAM: Adversarial Multi-Domain Alignment of Segment Anything Model for High-Fidelity Histology Nuclei Segmentation
要約 組織病理学の画像における細胞核の正確なセグメンテーションは、多数の生物医学 … 続きを読む
MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX
要約 フロンティアモデルは言語のみであるか、主にビジョンと言語のモダリティに焦点 … 続きを読む
TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models
要約 拡散技術の最近の進歩により、画像とビデオ生成が前例のないレベルの品質を推進 … 続きを読む
Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography
要約 対照的な言語イメージ前訓練(CLIP)は、医療画像分析に強い可能性を示して … 続きを読む
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?
要約 一時的な認識、質問が提起されたときにタイムスタンプに基づいて動的に推論する … 続きを読む
CTRL-O: Language-Controllable Object-Centric Visual Representation Learning
要約 オブジェクト中心の表現学習は、視覚的なシーンを「スロット」または「オブジェ … 続きを読む
VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing
要約 ビデオ編集は、エンターテイメント、教育、専門的なコミュニケーションのアプリ … 続きを読む