-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Everyone Can Be Picasso? A Computational Framework into the Myth of Human versus AI Painting
要約 最近の AI テクノロジー、特に AI 生成コンテンツ (AIGC) の進 … 続きを読む
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation
要約 オープンワールドのロボット操作のための高レベルのタスク計画とコード生成の急 … 続きを読む
Tables as Images? Exploring the Strengths and Limitations of LLMs on Multimodal Representations of Tabular Data
要約 このペーパーでは、さまざまなプロンプト戦略とデータ形式を通じて表形式データ … 続きを読む
Visual Hallucinations of Multi-modal Large Language Models
要約 幻視 (VH) とは、マルチモーダル LLM (MLLM) が視覚的な質問 … 続きを読む
Mitigating Gender Bias in Face Recognition Using the von Mises-Fisher Mixture Model
要約 日常の幅広い用途における深層学習アルゴリズムの高いパフォーマンスと信頼性に … 続きを読む
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis
要約 画像を生成するための現代のモデルは、驚くべき品質と多用途性を示しています。 … 続きを読む
Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset
要約 大規模マルチモーダル モデル (LMM) の最近の進歩により、MathVi … 続きを読む
AesFA: An Aesthetic Feature-Aware Arbitrary Neural Style Transfer
要約 ニューラル スタイル トランスファー (NST) は近年大幅に進化しました … 続きを読む
GeneOH Diffusion: Towards Generalizable Hand-Object Interaction Denoising via Denoising Diffusion
要約 この研究では、手とオブジェクトのインタラクション (HOI) のノイズを除 … 続きを読む
WeakSAM: Segment Anything Meets Weakly-supervised Instance-level Recognition
要約 不正確な監視を使用した弱い監視による視覚認識は、重要かつ困難な学習問題です … 続きを読む