月別アーカイブ: 2024年3月

Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity

投稿日: 2024年3月6日作成者: jarxiv

要約テキストガイドによる画像圧縮の最近の進歩により、再構成された画像の知覚品質 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

XAI-Based Detection of Adversarial Attacks on Deepfake Detectors

投稿日: 2024年3月6日作成者: jarxiv

要約私たちは、eXplainable Artificial Intellige … 続きを読む →

カテゴリー: cs.CR, cs.CV | コメントを受け付けていません

ChatGPT and biometrics: an assessment of face recognition, gender detection, and age estimation capabilities

投稿日: 2024年3月6日作成者: jarxiv

要約このペーパーでは、ChatGPT のような大規模言語モデル (LLM) を … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception

投稿日: 2024年3月6日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、多様な視覚言語タスクの認 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

UniCtrl: Improving the Spatiotemporal Consistency of Text-to-Video Diffusion Models via Training-Free Unified Attention Control

投稿日: 2024年3月6日作成者: jarxiv

要約ビデオ拡散モデルはビデオ生成用に開発されており、通常はテキストと画像の調整 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Doubly Abductive Counterfactual Inference for Text-based Image Editing

投稿日: 2024年3月6日作成者: jarxiv

要約私たちは、反事実推論による単一画像のテキストベース画像編集 (TBIE) … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer

投稿日: 2024年3月6日作成者: jarxiv

要約 Vision-Language Transformers (VLT) は最 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Mitigating Biases with Diverse Ensembles and Diffusion Models

投稿日: 2024年3月6日作成者: jarxiv

要約複数のキューがターゲットラベルを予測するデータ内の偽の相関は、多くの場合 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

投稿日: 2024年3月6日作成者: jarxiv

要約目覚ましい進歩にもかかわらず、既存のマルチモーダル大規模言語モデル (ML … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GroundingGPT:Language Enhanced Multi-modal Grounding Model

投稿日: 2024年3月6日作成者: jarxiv

要約マルチモーダル大規模言語モデルは、さまざまなモダリティのさまざまなタスクに … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年3月

Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity

XAI-Based Detection of Adversarial Attacks on Deepfake Detectors

ChatGPT and biometrics: an assessment of face recognition, gender detection, and age estimation capabilities

Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception

UniCtrl: Improving the Spatiotemporal Consistency of Text-to-Video Diffusion Models via Training-Free Unified Attention Control

Doubly Abductive Counterfactual Inference for Text-based Image Editing

MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer

Mitigating Biases with Diverse Ensembles and Diffusion Models

Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

GroundingGPT:Language Enhanced Multi-modal Grounding Model

最近の投稿

最近のコメント

アーカイブ

カテゴリー