-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年6月
MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations
要約 我々はMIM(Masked Image Modeling)-Refiner … 続きを読む
Mitigating Motion Blur in Neural Radiance Fields with Events and Frames
要約 Neural Radiance Fields (NeRF)は、新しいビュー … 続きを読む
カテゴリー: cs.CV
Mitigating Motion Blur in Neural Radiance Fields with Events and Frames はコメントを受け付けていません
GIFT: Generative Interpretable Fine-Tuning
要約 これは、パラメータ空間あるいは活性化空間における単純な因数分解行列乗算とし … 続きを読む
Graph External Attention Enhanced Transformer
要約 Transformerアーキテクチャは、カスタマイズされた注意メカニズムや … 続きを読む
カテゴリー: cs.LG
Graph External Attention Enhanced Transformer はコメントを受け付けていません
Large Language Models are Zero-Shot Next Location Predictors
要約 ある個人が将来訪れる場所を予測することは、病気の拡散や公害の削減など、多く … 続きを読む
A Pixel Is Worth More Than One 3D Gaussians in Single-View 3D Reconstruction
要約 単視点画像から3Dシーン表現を学習することは、コンピュータビジョンにおける … 続きを読む
カテゴリー: cs.CV
A Pixel Is Worth More Than One 3D Gaussians in Single-View 3D Reconstruction はコメントを受け付けていません
Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles
要約 ゼロサムゲームを解くための一般的なアプローチは、ナッシュ均衡(NE)を近似 … 続きを読む
S4Fusion: Saliency-aware Selective State Space Model for Infrared Visible Image Fusion
要約 画像融合におけるタスクの1つとして、赤外線画像と可視画像の融合は、異なるモ … 続きを読む
カテゴリー: cs.CV
S4Fusion: Saliency-aware Selective State Space Model for Infrared Visible Image Fusion はコメントを受け付けていません
StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond
要約 テキストリッチな画像は、人間生活の様々な場面に深く溶け込み、重要かつ広範な … 続きを読む
カテゴリー: cs.CV
StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond はコメントを受け付けていません
SOUL: Unlocking the Power of Second-Order Optimization for LLM Unlearning
要約 大規模言語モデル(LLM)は、データ規制と倫理的なAIの実践を遵守するため … 続きを読む