-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年7月
LightStereo: Channel Boost Is All Your Need for Efficient 2D Cost Aggregation
要約 私たちは、マッチングプロセスを加速するために作られた最先端のステレオマッチ … 続きを読む
カテゴリー: cs.CV
LightStereo: Channel Boost Is All Your Need for Efficient 2D Cost Aggregation はコメントを受け付けていません
Kandinsky 3.0 Technical Report
要約 我々は、潜在拡散に基づく大規模なテキストから画像への生成モデルである Ka … 続きを読む
StreamMOTP: Streaming and Unified Framework for Joint 3D Multi-Object Tracking and Trajectory Prediction
要約 3D マルチオブジェクト追跡と軌道予測は、自動運転システムにおける 2 つ … 続きを読む
FootBots: A Transformer-based Architecture for Motion Prediction in Soccer
要約 サッカーの動き予測には、プレーヤーとボールの相互作用から複雑なダイナミクス … 続きを読む
Mining Open Semantics from CLIP: A Relation Transition Perspective for Few-Shot Learning
要約 Contrastive Vision-Language Pre-train … 続きを読む
カテゴリー: cs.CV
Mining Open Semantics from CLIP: A Relation Transition Perspective for Few-Shot Learning はコメントを受け付けていません
InfiniBench: A Comprehensive Benchmark for Large Multimodal Models in Very Long Video Understanding
要約 数十分から数時間にわたる長いビデオを理解することは、ビデオの理解に独特の課 … 続きを読む
カテゴリー: cs.CV
InfiniBench: A Comprehensive Benchmark for Large Multimodal Models in Very Long Video Understanding はコメントを受け付けていません
On the Value of PHH3 for Mitotic Figure Detection on H&E-stained Images
要約 ヘマトキシリンおよびエオシン (H&E) で染色したスライドで観 … 続きを読む
LatentExplainer: Explaining Latent Representations in Deep Generative Models with Multi-modal Foundation Models
要約 VAE や拡散モデルなどの深層生成モデルは、潜在変数を活用してデータ分布を … 続きを読む
Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model
要約 専門家混合 (MoE) は、大規模視覚言語モデル (LVLM) の研究にお … 続きを読む
カテゴリー: cs.CV
Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model はコメントを受け付けていません
Parallax-tolerant Image Stitching via Segmentation-guided Multi-homography Warping
要約 画像間の大きな視差は、画像スティッチングにおいては解決できない問題です。 … 続きを読む
カテゴリー: cs.CV
Parallax-tolerant Image Stitching via Segmentation-guided Multi-homography Warping はコメントを受け付けていません