-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning
要約 手続き的なアクティビティを理解するには、アクションステップがシーンをどのよ … 続きを読む
カテゴリー: cs.CV
What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning はコメントを受け付けていません
CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships?
要約 マルチモーダル大手言語モデル(MLLM)は、多様な問題ドメイン全体で優れた … 続きを読む
Creating a Historical Migration Dataset from Finnish Church Records, 1800-1920
要約 この記事では、デジタル化された教会の移動記録を使用して、1800年から19 … 続きを読む
Reinforcing Multimodal Understanding and Generation with Dual Self-rewards
要約 大規模な言語モデル(LLMS)に基づいて、最近の大規模なマルチモーダルモデ … 続きを読む
SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design
要約 手動スライドの作成は労働集約的であり、専門家の事前知識が必要です。 既存の … 続きを読む
SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence
要約 マルチモーダル大手言語モデル(MLLM)は、さまざまなマルチモーダルタスク … 続きを読む
カテゴリー: cs.CV
SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence はコメントを受け付けていません
CyberV: Cybernetics for Test-time Scaling in Video Understanding
要約 現在のマルチモーダル大手言語モデル(MLLMS)は、テスト時に計算的な要求 … 続きを読む
カテゴリー: cs.CV
CyberV: Cybernetics for Test-time Scaling in Video Understanding はコメントを受け付けていません
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation
要約 テキストツーイメージ(T2I)モデルは、テキストプロンプトに沿った高品質の … 続きを読む
カテゴリー: cs.CV
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation はコメントを受け付けていません
Real-time Localization of a Soccer Ball from a Single Camera
要約 単一のブロードキャストカメラからのリアルタイムの3次元フットボール軌道再構 … 続きを読む
CXR-LT 2024: A MICCAI challenge on long-tailed, multi-label, and zero-shot disease classification from chest X-ray
要約 CXR-LTシリーズは、胸部X線(CXR)を使用した肺疾患の分類を強化する … 続きを読む