-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年3月
CMED: A Child Micro-Expression Dataset
要約 微小発現は、隠すのが難しい短い感情のバーストです。 子どもたちの検出は、心 … 続きを読む
カテゴリー: cs.CV
CMED: A Child Micro-Expression Dataset はコメントを受け付けていません
RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond
要約 マルチビューイメージングとポーズ推定の統合は、コンピュータービジョンアプリ … 続きを読む
カテゴリー: cs.CV
RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond はコメントを受け付けていません
Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data
要約 わずか数秒でテキストプロンプトから高品質の3Dメッシュを生成できるモデルを … 続きを読む
AMA-SAM: Adversarial Multi-Domain Alignment of Segment Anything Model for High-Fidelity Histology Nuclei Segmentation
要約 組織病理学の画像における細胞核の正確なセグメンテーションは、多数の生物医学 … 続きを読む
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks
要約 深い思考モデルの最近の進歩により、数学的およびコーディングタスクに関する顕 … 続きを読む
MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX
要約 フロンティアモデルは言語のみであるか、主にビジョンと言語のモダリティに焦点 … 続きを読む
BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs
要約 大規模なビジョン言語モデルの進歩により、正確で正確な画像キャプションがもた … 続きを読む
TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models
要約 拡散技術の最近の進歩により、画像とビデオ生成が前例のないレベルの品質を推進 … 続きを読む
SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding
要約 Slowaffast-llava-1.5(SF-llava-1.5として省 … 続きを読む
カテゴリー: cs.CV
SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding はコメントを受け付けていません
Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance
要約 テキスト間合成の評価は、確立されたメトリックと人間の好みとの間の不整合のた … 続きを読む
カテゴリー: cs.CV
Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance はコメントを受け付けていません