「cs.CV」カテゴリーアーカイブ

Equivariant spatio-hemispherical networks for diffusion MRI deconvolution

投稿日: 2024年11月19日作成者: jarxiv

要約拡散 MRI (dMRI) 画像内の各ボクセルには、脳内の水の拡散の方向と … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

LightFFDNets: Lightweight Convolutional Neural Networks for Rapid Facial Forgery Detection

投稿日: 2024年11月19日作成者: jarxiv

要約偽造品を正確かつ迅速に認識することは、人工知能、画像処理、物体検出の分野に … 続きを読む →

カテゴリー: cs.AI, cs.CV, I.2.10 | コメントを受け付けていません

RoboGSim: A Real2Sim2Real Robotic Gaussian Splatting Simulator

投稿日: 2024年11月19日作成者: jarxiv

要約実世界の具体化されたデータを効率的に取得することがますます重要になっていま … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Generative World Explorer

投稿日: 2024年11月19日作成者: jarxiv

要約部分的な観察を伴う計画は、身体化 AI における中心的な課題です。これま … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

UniHands: Unifying Various Wild-Collected Keypoints for Personalized Hand Reconstruction

投稿日: 2024年11月19日作成者: jarxiv

要約正確な手のモーションキャプチャと標準化された 3D 表現は、手に関連する … 続きを読む →

カテゴリー: cs.CV, cs.HC | コメントを受け付けていません

Partial Scene Text Retrieval

投稿日: 2024年11月19日作成者: jarxiv

要約部分シーンテキスト取得のタスクには、画像ギャラリーからの特定のクエリテ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Explanation for Trajectory Planning using Multi-modal Large Language Model for Autonomous Driving

投稿日: 2024年11月18日作成者: jarxiv

要約最近、エンドツーエンド型の自動運転モデルが開発されています。これらの … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

How Does Vision-Language Adaptation Impact the Safety of Vision Language Models?

投稿日: 2024年11月18日作成者: jarxiv

要約視覚言語適応 (VL 適応) は、マルチモーダルタスク向けに大規模言語モ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

JRadiEvo: A Japanese Radiology Report Generation Model Enhanced by Evolutionary Optimization of Model Merging

投稿日: 2024年11月18日作成者: jarxiv

要約大規模言語モデル (LLM) の急速な進歩に伴い、基礎モデル (FM) も … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.NE | コメントを受け付けていません

MANTIS: Interleaved Multi-Image Instruction Tuning

投稿日: 2024年11月18日作成者: jarxiv

要約大規模マルチモーダルモデル (LMM) は、単一画像ビジョン言語タスクで … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Equivariant spatio-hemispherical networks for diffusion MRI deconvolution

LightFFDNets: Lightweight Convolutional Neural Networks for Rapid Facial Forgery Detection

RoboGSim: A Real2Sim2Real Robotic Gaussian Splatting Simulator

Generative World Explorer

UniHands: Unifying Various Wild-Collected Keypoints for Personalized Hand Reconstruction

Partial Scene Text Retrieval

Explanation for Trajectory Planning using Multi-modal Large Language Model for Autonomous Driving

How Does Vision-Language Adaptation Impact the Safety of Vision Language Models?

JRadiEvo: A Japanese Radiology Report Generation Model Enhanced by Evolutionary Optimization of Model Merging

MANTIS: Interleaved Multi-Image Instruction Tuning

最近の投稿

最近のコメント

アーカイブ

カテゴリー