「cs.CV」カテゴリーアーカイブ

T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs

投稿日: 2024年12月3日作成者: jarxiv

要約画像領域におけるマルチモーダル大規模言語モデル (MLLM) の成功は、研 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Adaptive Discrete Disparity Volume for Self-supervised Monocular Depth Estimation

投稿日: 2024年12月2日作成者: jarxiv

要約自己教師付き単眼奥行き推定タスクでは、離散視差予測により、一般的な連続手法 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Control-oriented Clustering of Visual Latent Representation

投稿日: 2024年12月2日作成者: jarxiv

要約私たちは、動作のクローン作成から学習した画像ベースの制御パイプラインにおけ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

ETSM: Automating Dissection Trajectory Suggestion and Confidence Map-Based Safety Margin Prediction for Robot-assisted Endoscopic Submucosal Dissection

投稿日: 2024年12月2日作成者: jarxiv

要約ロボット支援内視鏡粘膜下層剥離術 (ESD) は、高度なロボット器具と両手 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

A Survey on Vision-Language-Action Models for Embodied AI

投稿日: 2024年12月2日作成者: jarxiv

要約ディープラーニングは、コンピュータービジョン、自然言語処理、強化学習など、 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.RO | コメントを受け付けていません

SurgeMOD: Translating image-space tissue motions into vision-based surgical forces

投稿日: 2024年12月2日作成者: jarxiv

要約我々は、ビデオから直接得られた臓器の動きの周波数領域ベースに基づいた、低侵 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Visual SLAMMOT Considering Multiple Motion Models

投稿日: 2024年12月2日作成者: jarxiv

要約同時位置特定とマッピング (SLAM) と複数物体追跡 (MOT) は、自 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Lost & Found: Updating Dynamic 3D Scene Graphs from Egocentric Observations

投稿日: 2024年12月2日作成者: jarxiv

要約最近のアプローチは、静的再構成のセグメンテーションに重点を置くことに成功し … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos

投稿日: 2024年12月2日作成者: jarxiv

要約 3D で自己中心的な手と物体を追跡するための公開されているデータセットであ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos

投稿日: 2024年12月2日作成者: jarxiv

要約動的な都市環境をナビゲートすることは、身体化されたエージェントにとって大き … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs

Adaptive Discrete Disparity Volume for Self-supervised Monocular Depth Estimation

Control-oriented Clustering of Visual Latent Representation

ETSM: Automating Dissection Trajectory Suggestion and Confidence Map-Based Safety Margin Prediction for Robot-assisted Endoscopic Submucosal Dissection

A Survey on Vision-Language-Action Models for Embodied AI

SurgeMOD: Translating image-space tissue motions into vision-based surgical forces

Visual SLAMMOT Considering Multiple Motion Models

Lost & Found: Updating Dynamic 3D Scene Graphs from Egocentric Observations

HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos

CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos

最近の投稿

最近のコメント

アーカイブ

カテゴリー