cs.CV」カテゴリーアーカイブ

T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs

要約 画像領域におけるマルチモーダル大規模言語モデル (MLLM) の成功は、研 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs はコメントを受け付けていません

Adaptive Discrete Disparity Volume for Self-supervised Monocular Depth Estimation

要約 自己教師付き単眼奥行き推定タスクでは、離散視差予測により、一般的な連続手法 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Adaptive Discrete Disparity Volume for Self-supervised Monocular Depth Estimation はコメントを受け付けていません

Control-oriented Clustering of Visual Latent Representation

要約 私たちは、動作のクローン作成から学習した画像ベースの制御パイプラインにおけ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Control-oriented Clustering of Visual Latent Representation はコメントを受け付けていません

ETSM: Automating Dissection Trajectory Suggestion and Confidence Map-Based Safety Margin Prediction for Robot-assisted Endoscopic Submucosal Dissection

要約 ロボット支援内視鏡粘膜下層剥離術 (ESD) は、高度なロボット器具と両手 … 続きを読む

カテゴリー: cs.CV, cs.RO | ETSM: Automating Dissection Trajectory Suggestion and Confidence Map-Based Safety Margin Prediction for Robot-assisted Endoscopic Submucosal Dissection はコメントを受け付けていません

A Survey on Vision-Language-Action Models for Embodied AI

要約 ディープラーニングは、コンピュータービジョン、自然言語処理、強化学習など、 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.RO | A Survey on Vision-Language-Action Models for Embodied AI はコメントを受け付けていません

SurgeMOD: Translating image-space tissue motions into vision-based surgical forces

要約 我々は、ビデオから直接得られた臓器の動きの周波数領域ベースに基づいた、低侵 … 続きを読む

カテゴリー: cs.CV, cs.RO | SurgeMOD: Translating image-space tissue motions into vision-based surgical forces はコメントを受け付けていません

Visual SLAMMOT Considering Multiple Motion Models

要約 同時位置特定とマッピング (SLAM) と複数物体追跡 (MOT) は、自 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Visual SLAMMOT Considering Multiple Motion Models はコメントを受け付けていません

Lost & Found: Updating Dynamic 3D Scene Graphs from Egocentric Observations

要約 最近のアプローチは、静的再構成のセグメンテーションに重点を置くことに成功し … 続きを読む

カテゴリー: cs.CV, cs.RO | Lost & Found: Updating Dynamic 3D Scene Graphs from Egocentric Observations はコメントを受け付けていません

HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos

要約 3D で自己中心的な手と物体を追跡するための公開されているデータセットであ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos はコメントを受け付けていません

CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos

要約 動的な都市環境をナビゲートすることは、身体化されたエージェントにとって大き … 続きを読む

カテゴリー: cs.CV, cs.RO | CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos はコメントを受け付けていません