-
最近の投稿
- Nearest-Neighbourless Asymptotically Optimal Motion Planning with Fully Connected Informed Trees (FCIT*)
- Performance assessment of ADAS in a representative subset of critical traffic situations
- Exciting Contact Modes in Differentiable Simulations for Robot Learning
- Can LLMs plan paths in the real world?
- DECODE: Domain-aware Continual Domain Expansion for Motion Prediction
-
最近のコメント
表示できるコメントはありません。 cs.AI (30257) cs.CL (22857) cs.CR (2346) cs.CV (36632) cs.LG (35077) cs.RO (17603) cs.SY (2704) eess.IV (4458) eess.SY (2698) stat.ML (4675)
「cs.MM」カテゴリーアーカイブ
Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation
要約 最近の研究では、人間の嗜好データセットを活用してテキストから画像への生成モ … 続きを読む
SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation
要約 単眼の 3D 人間の形状と姿勢を推定するための既存の Transforme … 続きを読む
TAVGBench: Benchmarking Text to Audible-Video Generation
要約 Text to Audible-Video Generation (TAV … 続きを読む
MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model
要約 LiDAR ベースの移動物体セグメンテーション (MOS) は、以前のスキ … 続きを読む
Leveraging Automatic Personalised Nutrition: Food Image Recognition Benchmark and Dataset based on Nutrition Taxonomy
要約 不適切な食生活が特徴的な今日の座りっぱなしの社会では、健康的なライフスタイ … 続きを読む
Training-and-prompt-free General Painterly Harmonization Using Image-wise Attention Sharing
要約 絵画的なイメージの調和は、単一の一貫したイメージ内で異種の視覚要素をシーム … 続きを読む
Food Portion Estimation via 3D Object Scaling
要約 食品画像を分析するための画像ベースの方法により、従来の方法に伴うユーザーの … 続きを読む
Can We Edit Multimodal Large Language Models?
要約 このペーパーでは、マルチモーダル大規模言語モデル (MLLM) の編集に焦 … 続きを読む
A Perspective on Deep Vision Performance with Standard Image and Video Codecs
要約 エッジ デバイスや携帯電話など、リソースに制約のあるハードウェアは、ディー … 続きを読む
Text-controlled Motion Mamba: Text-Instructed Temporal Grounding of Human Motion
要約 人間の動きの理解は、大規模なモーション キャプチャ データセットの利用によ … 続きを読む