-
最近の投稿
- Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge
- Semantic Masking and Visual Feature Matching for Robust Localization
- So You Think You Can Scale Up Autonomous Robot Data Collection?
- Enhancing Social Robot Navigation with Integrated Motion Prediction and Trajectory Planning in Dynamic Human Environments
- Toward Integrating Semantic-aware Path Planning and Reliable Localization for UAV Operations
-
最近のコメント
表示できるコメントはありません。 cs.AI (29082) cs.CL (21982) cs.CR (2262) cs.CV (35610) cs.LG (33906) cs.RO (16834) cs.SY (2586) eess.IV (4336) eess.SY (2580) stat.ML (4549)
月別アーカイブ: 2024年8月
Evaluation Framework for Feedback Generation Methods in Skeletal Movement Assessment
要約 スケルトンビデオからの動作評価への機械学習ソリューションの応用は、近年、研 … 続きを読む
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation
要約 大規模なビジョン言語モデル (GPT-4、LLaVA など) におけるよく … 続きを読む
カテゴリー: cs.CV
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation はコメントを受け付けていません
GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models
要約 大規模マルチモーダル モデル (LMM) は、多くの視覚的なタスクにわたっ … 続きを読む
カテゴリー: cs.CV
GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models はコメントを受け付けていません
Dissecting Out-of-Distribution Detection and Open-Set Recognition: A Critical Analysis of Methods and Benchmarks
要約 テスト時間の分布シフトの検出は、機械学習モデルを安全に導入するための重要な … 続きを読む
VGBench: Evaluating Large Language Models on Vector Graphics Understanding and Generation
要約 視覚モデルの領域では、主な表現モードはピクセルを使用して視覚世界をラスタラ … 続きを読む
OmniRe: Omni Urban Scene Reconstruction
要約 オンデバイスのログから高忠実度のダイナミックな都市シーンを効率的に再構築す … 続きを読む
カテゴリー: cs.CV
OmniRe: Omni Urban Scene Reconstruction はコメントを受け付けていません
UV-free Texture Generation with Denoising and Geodesic Heat Diffusions
要約 継ぎ目、歪み、無駄な UV スペース、頂点の重複、およびサーフェス上のさま … 続きを読む
CSGO: Content-Style Composition in Text-to-Image Generation
要約 拡散モデルは、制御された画像生成において優れた能力を示しており、それが画像 … 続きを読む
カテゴリー: cs.CV
CSGO: Content-Style Composition in Text-to-Image Generation はコメントを受け付けていません
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model
要約 3D シーン再構成の進歩により、現実世界の 2D 画像が 3D モデルに変 … 続きを読む
PromptSmooth: Certifying Robustness of Medical Vision-Language Models via Prompt Learning
要約 医療画像とテキストのペアの大規模なデータセットでトレーニングされ、後で特定 … 続きを読む