-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年3月
Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity
要約 テキストガイドによる画像圧縮の最近の進歩により、再構成された画像の知覚品質 … 続きを読む
XAI-Based Detection of Adversarial Attacks on Deepfake Detectors
要約 私たちは、eXplainable Artificial Intellige … 続きを読む
ChatGPT and biometrics: an assessment of face recognition, gender detection, and age estimation capabilities
要約 このペーパーでは、ChatGPT のような大規模言語モデル (LLM) を … 続きを読む
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception
要約 マルチモーダル大規模言語モデル (MLLM) は、多様な視覚言語タスクの認 … 続きを読む
カテゴリー: cs.CV
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception はコメントを受け付けていません
UniCtrl: Improving the Spatiotemporal Consistency of Text-to-Video Diffusion Models via Training-Free Unified Attention Control
要約 ビデオ拡散モデルはビデオ生成用に開発されており、通常はテキストと画像の調整 … 続きを読む
カテゴリー: cs.CV
UniCtrl: Improving the Spatiotemporal Consistency of Text-to-Video Diffusion Models via Training-Free Unified Attention Control はコメントを受け付けていません
Doubly Abductive Counterfactual Inference for Text-based Image Editing
要約 私たちは、反事実推論による単一画像のテキストベース画像編集 (TBIE) … 続きを読む
カテゴリー: cs.CV
Doubly Abductive Counterfactual Inference for Text-based Image Editing はコメントを受け付けていません
MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer
要約 Vision-Language Transformers (VLT) は最 … 続きを読む
カテゴリー: cs.CV
MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer はコメントを受け付けていません
Mitigating Biases with Diverse Ensembles and Diffusion Models
要約 複数のキューがターゲット ラベルを予測するデータ内の偽の相関は、多くの場合 … 続きを読む
Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models
要約 目覚ましい進歩にもかかわらず、既存のマルチモーダル大規模言語モデル (ML … 続きを読む
カテゴリー: cs.CV
Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models はコメントを受け付けていません
GroundingGPT:Language Enhanced Multi-modal Grounding Model
要約 マルチモーダル大規模言語モデルは、さまざまなモダリティのさまざまなタスクに … 続きを読む