cs.CV」カテゴリーアーカイブ

Efficient Data Representation for Motion Forecasting: A Scene-Specific Trajectory Set Approach

要約 自動運転における動作予測には、多様でありそうな将来の軌道を表現することが重 … 続きを読む

カテゴリー: cs.CV, cs.RO | Efficient Data Representation for Motion Forecasting: A Scene-Specific Trajectory Set Approach はコメントを受け付けていません

On-Device Self-Supervised Learning of Low-Latency Monocular Depth from Only Events

要約 イベント カメラは、わずかミリワットの電力で低遅延の認識を提供します。 そ … 続きを読む

カテゴリー: cs.CV, cs.RO | On-Device Self-Supervised Learning of Low-Latency Monocular Depth from Only Events はコメントを受け付けていません

Adaptive Graph Learning from Spatial Information for Surgical Workflow Anticipation

要約 手術ワークフローの予測は、ライブビデオデータから関連する手術イベントのタイ … 続きを読む

カテゴリー: cs.CV, cs.RO | Adaptive Graph Learning from Spatial Information for Surgical Workflow Anticipation はコメントを受け付けていません

Perception Helps Planning: Facilitating Multi-Stage Lane-Level Integration via Double-Edge Structures

要約 自動運転を計画する場合、車線、交差点、交通規制、ダイナミック エージェント … 続きを読む

カテゴリー: cs.CV, cs.RO | Perception Helps Planning: Facilitating Multi-Stage Lane-Level Integration via Double-Edge Structures はコメントを受け付けていません

An Efficient Scene Coordinate Encoding and Relocalization Method

要約 シーン座標回帰 (SCR) は、ディープ ニューラル ネットワーク (DN … 続きを読む

カテゴリー: cs.CV, cs.RO | An Efficient Scene Coordinate Encoding and Relocalization Method はコメントを受け付けていません

PPT: Pre-Training with Pseudo-Labeled Trajectories for Motion Forecasting

要約 自動運転のための動き予測 (MF) は、複雑な都市シナリオにおける周囲のエ … 続きを読む

カテゴリー: cs.CV, cs.RO | PPT: Pre-Training with Pseudo-Labeled Trajectories for Motion Forecasting はコメントを受け付けていません

Improved GUI Grounding via Iterative Narrowing

要約 グラフィカル ユーザー インターフェイス (GUI) の基礎は、視覚言語モ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Improved GUI Grounding via Iterative Narrowing はコメントを受け付けていません

A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs

要約 マルチモーダル大規模言語モデル (MLLM) の動作を人間の好みに合わせる … 続きを読む

カテゴリー: cs.CL, cs.CV | A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs はコメントを受け付けていません

Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey

要約 マルチモーダル基礎モデルの急速な進化により、テキスト、画像、オーディオ、ビ … 続きを読む

カテゴリー: cs.CL, cs.CV | Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey はコメントを受け付けていません

From Pixels to Words: Leveraging Explainability in Face Recognition through Interactive Natural Language Processing

要約 顔認識 (FR) はディープラーニングの発展により大幅に進歩し、いくつかの … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG | From Pixels to Words: Leveraging Explainability in Face Recognition through Interactive Natural Language Processing はコメントを受け付けていません