-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年3月
L$^2$M: Mutual Information Scaling Law for Long-Context Language Modeling
要約 私たちは、長距離依存関係を支配する自然言語で法律をスケーリングする二部の相 … 続きを読む
A lightweight model FDM-YOLO for small target improvement based on YOLOv8
要約 小さなターゲットは、ピクセルのカウントが低い、複雑な背景、さまざまな撮影角 … 続きを読む
カテゴリー: cs.CV
A lightweight model FDM-YOLO for small target improvement based on YOLOv8 はコメントを受け付けていません
TPC: Cross-Temporal Prediction Connection for Vision-Language Model Hallucination Reduction
要約 ビジョン言語モデル(VLM)は、多様なタスク全体の大規模な言語モデル(LL … 続きを読む
Question-Aware Gaussian Experts for Audio-Visual Question Answering
要約 視聴覚質問応答(AVQA)には、質問に基づいたマルチモーダル推論だけでなく … 続きを読む
カテゴリー: cs.CV
Question-Aware Gaussian Experts for Audio-Visual Question Answering はコメントを受け付けていません
Gate-Shift-Pose: Enhancing Action Recognition in Sports with Skeleton Information
要約 このペーパーでは、RGBフレームと一緒にスケルトンポーズデータを統合するこ … 続きを読む
カテゴリー: cs.CV
Gate-Shift-Pose: Enhancing Action Recognition in Sports with Skeleton Information はコメントを受け付けていません
ForestLPR: LiDAR Place Recognition in Forests Attentioning Multiple BEV Density Images
要約 場所の認識は、大規模なローカリゼーションシステムのグローバルな一貫性を維持 … 続きを読む
MobileViM: A Light-weight and Dimension-independent Vision Mamba for 3D Medical Image Analysis
要約 3次元(3D)医療画像の効率的な評価は、ヘルスケアにおける診断慣行および治 … 続きを読む
Semantic Alignment of Unimodal Medical Text and Vision Representations
要約 一般的なAIモデル、特にテキストとビジョンのために設計されたモデルは、幅広 … 続きを読む
カテゴリー: cs.CV
Semantic Alignment of Unimodal Medical Text and Vision Representations はコメントを受け付けていません
Mocap-2-to-3: Lifting 2D Diffusion-Based Pretrained Models for 3D Motion Capture
要約 単眼のビューから世界座標系で絶対的なポーズを回復することは、重要な課題をも … 続きを読む
カテゴリー: cs.CV
Mocap-2-to-3: Lifting 2D Diffusion-Based Pretrained Models for 3D Motion Capture はコメントを受け付けていません
UniMLVG: Unified Framework for Multi-view Long Video Generation with Comprehensive Control Capabilities for Autonomous Driving
要約 自律運転システムの認識と計画能力を高めるために、多様で現実的な運転シナリオ … 続きを読む
カテゴリー: cs.CV
UniMLVG: Unified Framework for Multi-view Long Video Generation with Comprehensive Control Capabilities for Autonomous Driving はコメントを受け付けていません