-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Order-aware Interactive Segmentation
要約 インタラクティブ セグメンテーションは、最小限のユーザー操作でターゲット … 続きを読む
Movie Gen: A Cast of Media Foundation Models
要約 さまざまなアスペクト比と同期されたオーディオを備えた高品質の 1080p … 続きを読む
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation
要約 トーキング ヘッドの生成は、1 つのポートレートとスピーチ オーディオ ク … 続きを読む
Corrective Machine Unlearning
要約 機械学習モデルは、インターネットから取得した大規模なトレーニング データセ … 続きを読む
Multi-style conversion for semantic segmentation of lesions in fundus images by adversarial attacks
要約 眼底画像に依存する糖尿病性網膜症の診断は、包括的な分類アプローチを使用する … 続きを読む
Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models
要約 モデルが強化されるにつれて、評価はより複雑になり、1 つのベンチマークで、 … 続きを読む
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
要約 この論文では、マルチモーダルな理解と生成を統合する自己回帰フレームワークで … 続きを読む
Retrospective Learning from Interactions
要約 大規模言語モデル (LLM) とユーザーの間の複数ターンの対話には、当然、 … 続きを読む
Can MLLMs Understand the Deep Implication Behind Chinese Images?
要約 マルチモーダル大規模言語モデル (MLLM) の機能が向上し続けるにつれて … 続きを読む
Automatic Mapping of Anatomical Landmarks from Free-Text Using Large Language Models: Insights from Llama-2
要約 解剖学的ランドマークは、ナビゲーションや異常検出のための医療画像処理におい … 続きを読む