-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.LG」カテゴリーアーカイブ
ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition
要約 Transformer モデルは、自然言語処理 (NLP) やコンピュータ … 続きを読む
OminiControl: Minimal and Universal Control for Diffusion Transformer
要約 このペーパーでは、画像条件を事前トレーニング済みの拡散変換 (DiT) モ … 続きを読む
Understanding Generalizability of Diffusion Models Requires Rethinking the Hidden Gaussian Structure
要約 この研究では、学習されたスコア関数の隠れた特性を調べることによって拡散モデ … 続きを読む
What Differentiates Educational Literature? A Multimodal Fusion Approach of Transformers and Computational Linguistics
要約 教育者には読みやすさを迅速に評価し、教室の多様なニーズに合わせてテキストを … 続きを読む
Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM’s Reasoning Capability
要約 大規模言語モデル (LLM) は、推論タスクで顕著なパフォーマンスを示しま … 続きを読む
T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs
要約 画像領域におけるマルチモーダル大規模言語モデル (MLLM) の成功は、研 … 続きを読む
OWLed: Outlier-weighed Layerwise Pruning for Efficient Autonomous Driving Framework
要約 大規模言語モデル (LLM) を自動運転システムに統合すると、環境の理解と … 続きを読む
ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics
要約 強化学習 (RL) はロボット タスクにおいて魅力的なパフォーマンスを示し … 続きを読む
Control-oriented Clustering of Visual Latent Representation
要約 私たちは、動作のクローン作成から学習した画像ベースの制御パイプラインにおけ … 続きを読む
GRAPE: Generalizing Robot Policy via Preference Alignment
要約 さまざまなロボット工学タスクに関するビジョン・言語・アクション (VLA) … 続きを読む