-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年4月
Multi-Head Adaptive Graph Convolution Network for Sparse Point Cloud-Based Human Activity Recognition
要約 特に高齢者や介助が必要な人の自立した生活を支えるために、人の行動認識はます … 続きを読む
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation
要約 OpenAIのGPT4oモデルにおける最近のブレークスルーは、画像生成と編 … 続きを読む
カテゴリー: cs.CV
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation はコメントを受け付けていません
Spline-based Transformers
要約 我々は、スプラインベースのトランスフォーマーを紹介する。スプラインベースの … 続きを読む
Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence
要約 大規模な視覚言語モデルは、AI主導の画像理解のための新しいパラダイムを提供 … 続きを読む
F-ViTA: Foundation Model Guided Visible to Thermal Translation
要約 赤外線画像は、特に低照度や夜間の状況把握に欠かせない。しかし、赤外線画像の … 続きを読む
カテゴリー: cs.CV
F-ViTA: Foundation Model Guided Visible to Thermal Translation はコメントを受け付けていません
BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation
要約 BOPチャレンジ2024の評価方法、データセット、結果について発表する。B … 続きを読む
カテゴリー: cs.CV
BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation はコメントを受け付けていません
HATFormer: Historic Handwritten Arabic Text Recognition with Transformers
要約 アラビア語の手書きテキスト認識(HTR)は、多様な書き方やアラビア文字固有 … 続きを読む
Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization
要約 多くの3D生成モデルは、コンパクトな形状表現を学習するために変分オートエン … 続きを読む
カテゴリー: cs.CV
Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization はコメントを受け付けていません
GMR-Conv: An Efficient Rotation and Reflection Equivariant Convolution Kernel Using Gaussian Mixture Rings
要約 ある特徴が幾何学的な変換の下でも不変である対称性は、畳み込みニューラルネッ … 続きを読む
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models
要約 スパースオートエンコーダ(SAE)は近年、大規模言語モデル(LLM)におけ … 続きを読む