-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.LG」カテゴリーアーカイブ
OmniEvalKit: A Modular, Lightweight Toolbox for Evaluating Large Language Model and its Omni-Extensions
要約 大規模言語モデル (LLM) の急速な進歩により、多言語サポートからドメイ … 続きを読む
FabuLight-ASD: Unveiling Speech Activity via Body Language
要約 マルチモーダル環境におけるアクティブ話者検出 (ASD) は、ビデオ会議か … 続きを読む
How to Merge Your Multimodal Models Over Time?
要約 モデルの結合では、さまざまなタスクやドメインに関する基本基盤モデルから微調 … 続きを読む
Toward Non-Invasive Diagnosis of Bankart Lesions with Deep Learning
要約 バンカート病変、つまり関節窩前下唇裂傷は、画像上の特徴が微妙なため、標準的 … 続きを読む
Convolution goes higher-order: a biologically inspired mechanism empowers image classification
要約 我々は、複雑な非線形生物学的視覚処理に触発された画像分類への新しいアプロー … 続きを読む
ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities
要約 従来の固定テスト セットでは、基礎モデルのオープンエンド機能を評価するには … 続きを読む
Proactive Agents for Multi-Turn Text-to-Image Generation Under Uncertainty
要約 生成 AI モデルに対するユーザー プロンプトは、多くの場合、仕様が不十分 … 続きを読む
Visual Lexicon: Rich Image Features in Language Space
要約 私たちは、自然言語で伝えるのが難しい複雑な視覚的詳細を保持しながら、豊富な … 続きを読む
Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving
要約 動的シーンのリアルタイム 4D 再構成は、自動運転の知覚にとって依然として … 続きを読む
Data Attribution for Text-to-Image Models by Unlearning Synthesized Images
要約 テキストから画像へのモデルのデータ帰属の目的は、新しい画像の生成に最も影響 … 続きを読む