-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization
要約 言語は、トレーニング領域での経験的な発見なしに、ビジョン エンコーダーをさ … 続きを読む
RACCooN: Remove, Add, and Change Video Content with Auto-Generated Narratives
要約 最近のビデオ生成モデルは主に、修復やスタイル編集などの特定のタスクについて … 続きを読む
Why are Visually-Grounded Language Models Bad at Image Classification?
要約 画像分類は、マシン ビジョン インテリジェンスの最も基本的な機能の 1 つ … 続きを読む
ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention
要約 最近、線形複雑性シーケンス モデリング ネットワークは、FLOP とメモリ … 続きを読む
GFlow: Recovering 4D World from Monocular Video
要約 ビデオ入力から 4D シーンを再構築することは、重要かつ困難な作業です。 … 続きを読む
DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention
要約 大規模な事前トレーニングを備えた拡散モデルは、特に拡散トランスフォーマー … 続きを読む
Selecting Large Language Model to Fine-tune via Rectified Scaling Law
要約 成長を続ける LLM のエコシステムにより、膨大なオプションの中で微調整す … 続きを読む
Structured Graph Network for Constrained Robot Crowd Navigation with Low Fidelity Simulation
要約 低忠実度シミュレータを使用して、制約付き群衆ナビゲーションのための強化学習 … 続きを読む
LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding
要約 視覚的なグラウンディングは、ユーザーが指定したテキスト クエリを画像内のク … 続きを読む
Double Correction Framework for Denoising Recommendation
要約 オンライン サービスでの可用性と汎用性により、暗黙的なフィードバックはレコ … 続きを読む