月別アーカイブ: 2024年7月

Network Inversion of Convolutional Neural Nets

要約 ニューラル ネットワークは、さまざまなアプリケーションにわたる強力なツール … 続きを読む

カテゴリー: cs.CV, cs.LG | Network Inversion of Convolutional Neural Nets はコメントを受け付けていません

Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation

要約 シーン グラフ生成 (SGG) タスクには、画像内のオブジェクトの検出と、 … 続きを読む

カテゴリー: cs.AI, cs.CV | Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation はコメントを受け付けていません

Segmentation-guided MRI reconstruction for meaningfully diverse reconstructions

要約 加速された MRI 再構成などの逆問題は不適切な設定であり、考えられるもっ … 続きを読む

カテゴリー: cs.CV, eess.IV | Segmentation-guided MRI reconstruction for meaningfully diverse reconstructions はコメントを受け付けていません

PARSE-Ego4D: Personal Action Recommendation Suggestions for Egocentric Videos

要約 インテリジェントな支援には、理解するだけでなく行動も含まれます。 既存の自 … 続きを読む

カテゴリー: cs.CV, cs.HC, cs.NE | PARSE-Ego4D: Personal Action Recommendation Suggestions for Egocentric Videos はコメントを受け付けていません

AttentionHand: Text-driven Controllable Hand Image Generation for 3D Hand Reconstruction in the Wild

要約 最近、人間とコンピューターのさまざまな形式の対話を使用するための 3D 手 … 続きを読む

カテゴリー: cs.AI, cs.CV | AttentionHand: Text-driven Controllable Hand Image Generation for 3D Hand Reconstruction in the Wild はコメントを受け付けていません

RestoreAgent: Autonomous Image Restoration Agent via Multimodal Large Language Models

要約 モバイル デバイスでキャプチャされた自然画像には、ノイズ、ぼやけ、低照度な … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | RestoreAgent: Autonomous Image Restoration Agent via Multimodal Large Language Models はコメントを受け付けていません

Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images

要約 継続学習 (CL) は、一方向のトレーニング方法を打破し、モデルが新しいデ … 続きを読む

カテゴリー: cs.CV, cs.MM | Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images はコメントを受け付けていません

TiCoSS: Tightening the Coupling between Semantic Segmentation and Stereo Matching within A Joint Learning Framework

要約 セマンティック セグメンテーションとステレオ マッチングは、それぞれ人間の … 続きを読む

カテゴリー: cs.CV, cs.RO | TiCoSS: Tightening the Coupling between Semantic Segmentation and Stereo Matching within A Joint Learning Framework はコメントを受け付けていません

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

要約 ビデオ認識、ビデオ テキスト タスク、およびビデオ中心の対話において最先端 … 続きを読む

カテゴリー: cs.CV | InternVideo2: Scaling Foundation Models for Multimodal Video Understanding はコメントを受け付けていません

YOCO: You Only Calibrate Once for Accurate Extrinsic Parameter in LiDAR-Camera Systems

要約 カメラと LiDAR で構成されるマルチセンサー フュージョン システムで … 続きを読む

カテゴリー: cs.CV, cs.RO | YOCO: You Only Calibrate Once for Accurate Extrinsic Parameter in LiDAR-Camera Systems はコメントを受け付けていません