-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Boltzmann Attention Sampling for Image Analysis with Small Objects
要約 肺結節や腫瘍病変などの小さなオブジェクトの検出とセグメント化は、画像分析に … 続きを読む
カテゴリー: cs.CV
Boltzmann Attention Sampling for Image Analysis with Small Objects はコメントを受け付けていません
Multimodal Deep Learning for Subtype Classification in Breast Cancer Using Histopathological Images and Gene Expression Data
要約 乳がんの分子サブタイピングは、個別化された治療と予後に不可欠です。 従来の … 続きを読む
CADDI: An in-Class Activity Detection Dataset using IMU data from low-cost sensors
要約 クラス内の学生活動の監視と予測は、エンゲージメントの理解と教育的有効性の向 … 続きを読む
Deepfake-Eval-2024: A Multi-Modal In-the-Wild Benchmark of Deepfakes Circulated in 2024
要約 ますます現実的に生成されるAIの時代には、詐欺と偽情報を緩和するためには、 … 続きを読む
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning
要約 マルチモーダル大手言語モデル(MLLM)は、視覚情報とテキスト情報を統合す … 続きを読む
VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge
要約 Generalist Vision Language Models(VLM … 続きを読む
カテゴリー: cs.CV
VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge はコメントを受け付けていません
SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models
要約 計算病理学でAIを進めるには、大規模で高品質で多様なデータセットが必要です … 続きを読む
ARINAR: Bi-Level Autoregressive Feature-by-Feature Generative Models
要約 既存の自己回帰(AR)画像生成モデルは、トークンごとの生成スキーマを使用し … 続きを読む
カテゴリー: cs.CV
ARINAR: Bi-Level Autoregressive Feature-by-Feature Generative Models はコメントを受け付けていません
A Survey on Vision-Language-Action Models for Embodied AI
要約 具体化されたAIは、物理世界でタスクを実行するために具体化されたエージェン … 続きを読む
3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds
要約 3Dアフォーダンス検出は、さまざまなロボットタスクに関する幅広いアプリケー … 続きを読む