-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Breaking Language Barriers in Visual Language Models via Multilingual Textual Regularization
要約 視覚言語モデル(VLM)の急速な進歩は、マルチモーダルの理解を変えましたが … 続きを読む
Using AI to Summarize US Presidential Campaign TV Advertisement Videos, 1952-2012
要約 このペーパーでは、デジタル形式で入手可能な米国大統領キャンペーンテレビ広告 … 続きを読む
KEVS: Enhancing Segmentation of Visceral Adipose Tissue in Pre-Cystectomy CT with Gaussian Kernel Density Estimation
要約 目的:膀胱切除患者における内臓脂肪組織(VAT)の分布は、術後合併症の発生 … 続きを読む
USC: Uncompromising Spatial Constraints for Safety-Oriented 3D Object Detectors in Autonomous Driving
要約 この作業では、自律運転コンテキストでの3Dオブジェクト検出器の安全指向のパ … 続きを読む
RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models
要約 大規模な言語モデル(LLMS)の開発は、一般的なアシスタントとしてマルチモ … 続きを読む
VidTwin: Video VAE with Decoupled Structure and Dynamics
要約 ビデオ自動エンコーダー(ビデオAE)の最近の進歩により、ビデオ生成の品質と … 続きを読む
Unicorn: Text-Only Data Synthesis for Vision Language Model Training
要約 トレーニングビジョン言語モデル(VLM)には通常、大規模で高品質の画像テキ … 続きを読む
Evaluation of Machine-generated Biomedical Images via A Tally-based Similarity Measure
要約 超解像度、インペインティング、全画像の生成、対応のないスタイル移動、ネット … 続きを読む
DSO: Aligning 3D Generators with Simulation Feedback for Physical Soundness
要約 ほとんどの3Dオブジェクトジェネレーターは、美的品質に焦点を当てており、ア … 続きを読む
Outlier dimensions favor frequent tokens in language models
要約 最後の層の外れ値の寸法、つまり、大部分の入力に対して極端な活性化を示す寸法 … 続きを読む