月別アーカイブ: 2025年3月

Annotation-Free Curb Detection Leveraging Altitude Difference Image

投稿日: 2025年3月4日作成者: jarxiv

要約道路の縁石は、自律走行車の安全性を確保するために不可欠な、重要かつどこにで … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MATCH POLICY: A Simple Pipeline from Point Cloud Registration to Manipulation Policies

投稿日: 2025年3月4日作成者: jarxiv

要約マニピュレーションタスクの多くは、ロボットが物体を相対的に再配置することを … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Evaluating Intelligence via Trial and Error

投稿日: 2025年3月4日作成者: jarxiv

要約知能は、限られた回数の試行錯誤の中で解決策を見出す種にとって重要な特性であ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR | コメントを受け付けていません

EchoONE: Segmenting Multiple echocardiography Planes in One Model

投稿日: 2025年3月4日作成者: jarxiv

要約臨床における心エコー検査では、心疾患のスクリーニング、診断、治療において、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Stereo Hand-Object Reconstruction for Human-to-Robot Handover

投稿日: 2025年3月4日作成者: jarxiv

要約手と物体の形状を共同で推定することで、人間からロボットへのハンドオーバーに … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Towards Physically Realizable Adversarial Attacks in Embodied Vision Navigation

投稿日: 2025年3月4日作成者: jarxiv

要約具現化ビジョンナビゲーションの大幅な進歩により、ディープニューラルネットワ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key

投稿日: 2025年3月4日作成者: jarxiv

要約幻覚は、大規模視覚言語モデル（LVLM）にとって依然として大きな課題である … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

StarVid: Enhancing Semantic Alignment in Video Diffusion Models via Spatial and SynTactic Guided Attention Refocusing

投稿日: 2025年3月4日作成者: jarxiv

要約拡散モデルを用いたテキスト映像（T2V）生成における最近の進歩は、大きな注 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Self-Supervised Iterative Refinement for Anomaly Detection in Industrial Quality Control

投稿日: 2025年3月4日作成者: jarxiv

要約本研究では、ロバストな異常検出手法である反復的精密化プロセス（IRP）を紹 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation

投稿日: 2025年3月4日作成者: jarxiv

要約レシピデータを用いた食品イメージの理解に関する研究は、そのデータの多様性と … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

月別アーカイブ: 2025年3月

Annotation-Free Curb Detection Leveraging Altitude Difference Image

MATCH POLICY: A Simple Pipeline from Point Cloud Registration to Manipulation Policies

Evaluating Intelligence via Trial and Error

EchoONE: Segmenting Multiple echocardiography Planes in One Model

Stereo Hand-Object Reconstruction for Human-to-Robot Handover

Towards Physically Realizable Adversarial Attacks in Embodied Vision Navigation

Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key

StarVid: Enhancing Semantic Alignment in Video Diffusion Models via Spatial and SynTactic Guided Attention Refocusing

Self-Supervised Iterative Refinement for Anomaly Detection in Industrial Quality Control

FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー