月別アーカイブ: 2024年3月

Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity

要約 テキストガイドによる画像圧縮の最近の進歩により、再構成された画像の知覚品質 … 続きを読む

カテゴリー: cs.CV, cs.LG | Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity はコメントを受け付けていません

XAI-Based Detection of Adversarial Attacks on Deepfake Detectors

要約 私たちは、eXplainable Artificial Intellige … 続きを読む

カテゴリー: cs.CR, cs.CV | XAI-Based Detection of Adversarial Attacks on Deepfake Detectors はコメントを受け付けていません

ChatGPT and biometrics: an assessment of face recognition, gender detection, and age estimation capabilities

要約 このペーパーでは、ChatGPT のような大規模言語モデル (LLM) を … 続きを読む

カテゴリー: cs.AI, cs.CV | ChatGPT and biometrics: an assessment of face recognition, gender detection, and age estimation capabilities はコメントを受け付けていません

Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception

要約 マルチモーダル大規模言語モデル (MLLM) は、多様な視覚言語タスクの認 … 続きを読む

カテゴリー: cs.CV | Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception はコメントを受け付けていません

UniCtrl: Improving the Spatiotemporal Consistency of Text-to-Video Diffusion Models via Training-Free Unified Attention Control

要約 ビデオ拡散モデルはビデオ生成用に開発されており、通常はテキストと画像の調整 … 続きを読む

カテゴリー: cs.CV | UniCtrl: Improving the Spatiotemporal Consistency of Text-to-Video Diffusion Models via Training-Free Unified Attention Control はコメントを受け付けていません

Doubly Abductive Counterfactual Inference for Text-based Image Editing

要約 私たちは、反事実推論による単一画像のテキストベース画像編集 (TBIE) … 続きを読む

カテゴリー: cs.CV | Doubly Abductive Counterfactual Inference for Text-based Image Editing はコメントを受け付けていません

MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer

要約 Vision-Language Transformers (VLT) は最 … 続きを読む

カテゴリー: cs.CV | MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer はコメントを受け付けていません

Mitigating Biases with Diverse Ensembles and Diffusion Models

要約 複数のキューがターゲット ラベルを予測するデータ内の偽の相関は、多くの場合 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Mitigating Biases with Diverse Ensembles and Diffusion Models はコメントを受け付けていません

Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

要約 目覚ましい進歩にもかかわらず、既存のマルチモーダル大規模言語モデル (ML … 続きを読む

カテゴリー: cs.CV | Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models はコメントを受け付けていません

GroundingGPT:Language Enhanced Multi-modal Grounding Model

要約 マルチモーダル大規模言語モデルは、さまざまなモダリティのさまざまなタスクに … 続きを読む

カテゴリー: cs.CL, cs.CV | GroundingGPT:Language Enhanced Multi-modal Grounding Model はコメントを受け付けていません