Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance

要約

マルチモーダル大規模言語モデル (MLLM) は、幅広い領域にわたる視覚言語タスクにおいて優れたパフォーマンスを実証しています。
ただし、モデルの規模が大きく、それに伴う計算コストが高いため、消費者グレードの GPU やエッジ デバイスで MLLM をトレーニングおよび展開する場合に大きな課題が生じ、その広範なアプリケーションが妨げられています。
この作業では、1B から 4B までのパラメータを持つ一連の MLLM である Mini-InternVL を紹介します。これは、わずか 5% のパラメータで 90% のパフォーマンスを達成します。
この効率と有効性の大幅な向上により、モデルがよりアクセスしやすくなり、現実世界のさまざまなシナリオに適用できるようになります。
当社モデルの導入をさらに促進するために、当社は Mini-InternVL 用の統合適応フレームワークを開発します。これにより、当社のモデルは、自動運転、医療画像、リモート センシングなどの下流タスクで特殊なモデルを転送し、それを上回るパフォーマンスを発揮できるようになります。
私たちは、この研究が効率的かつ効果的な MLLM の開発を進めるための貴重な洞察とリソースを提供できると信じています。
コードは https://github.com/OpenGVLab/InternVL で入手できます。

要約(オリジナル)

Multimodal large language models (MLLMs) have demonstrated impressive performance in vision-language tasks across a broad spectrum of domains. However, the large model scale and associated high computational costs pose significant challenges for training and deploying MLLMs on consumer-grade GPUs or edge devices, thereby hindering their widespread application. In this work, we introduce Mini-InternVL, a series of MLLMs with parameters ranging from 1B to 4B, which achieves 90% of the performance with only 5% of the parameters. This significant improvement in efficiency and effectiveness makes our models more accessible and applicable in various real-world scenarios. To further promote the adoption of our models, we develop a unified adaptation framework for Mini-InternVL, which enables our models to transfer and outperform specialized models in downstream tasks, including autonomous driving, medical images, and remote sensing. We believe that our study can provide valuable insights and resources to advance the development of efficient and effective MLLMs. Code is available at https://github.com/OpenGVLab/InternVL.

arxiv情報

著者 Zhangwei Gao,Zhe Chen,Erfei Cui,Yiming Ren,Weiyun Wang,Jinguo Zhu,Hao Tian,Shenglong Ye,Junjun He,Xizhou Zhu,Lewei Lu,Tong Lu,Yu Qiao,Jifeng Dai,Wenhai Wang
発行日 2024-10-21 17:58:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance はコメントを受け付けていません

3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors

要約

ノベルビュー合成は、複数の入力画像またはビデオからシーンの新しいビューを生成することを目的とし、3D ガウス スプラッティング (3DGS) などの最近の進歩は、効率的なパイプラインを使用してフォトリアリスティックなレンダリングを生成することに顕著な成功を収めています。
ただし、まばらな入力ビューなどの難しい設定の下で高品質の新しいビューを生成することは、アンダーサンプリング領域の情報が不十分なため依然として困難であり、多くの場合、顕著なアーティファクトが発生します。
この文書では、3DGS 表現の表現品質を向上させるための新しいパイプラインである 3DGS-Enhancer について説明します。
私たちは 2D ビデオ拡散事前分布を活用して、困難な 3D ビューの一貫性の問題に対処し、ビデオ生成プロセス内で時間的な一貫性を達成するものとして再定式化します。
3DGS-Enhancer は、レンダリングされた新しいビューのビュー一貫性のある潜在的特徴を復元し、時空間デコーダーを通じて入力ビューとそれらを統合します。
強化されたビューは、最初の 3DGS モデルを微調整するために使用され、レンダリング パフォーマンスが大幅に向上します。
境界のないシーンの大規模データセットに対する広範な実験により、3DGS-Enhancer が最先端の方法と比較して優れた再構築パフォーマンスと高忠実度のレンダリング結果を生み出すことが実証されました。
プロジェクトの Web ページは https://xiliu8006.github.io/3DGS-Enhancer-project です。

要約(オリジナル)

Novel-view synthesis aims to generate novel views of a scene from multiple input images or videos, and recent advancements like 3D Gaussian splatting (3DGS) have achieved notable success in producing photorealistic renderings with efficient pipelines. However, generating high-quality novel views under challenging settings, such as sparse input views, remains difficult due to insufficient information in under-sampled areas, often resulting in noticeable artifacts. This paper presents 3DGS-Enhancer, a novel pipeline for enhancing the representation quality of 3DGS representations. We leverage 2D video diffusion priors to address the challenging 3D view consistency problem, reformulating it as achieving temporal consistency within a video generation process. 3DGS-Enhancer restores view-consistent latent features of rendered novel views and integrates them with the input views through a spatial-temporal decoder. The enhanced views are then used to fine-tune the initial 3DGS model, significantly improving its rendering performance. Extensive experiments on large-scale datasets of unbounded scenes demonstrate that 3DGS-Enhancer yields superior reconstruction performance and high-fidelity rendering results compared to state-of-the-art methods. The project webpage is https://xiliu8006.github.io/3DGS-Enhancer-project .

arxiv情報

著者 Xi Liu,Chaoyi Zhou,Siyu Huang
発行日 2024-10-21 17:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | 3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors はコメントを受け付けていません

xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

要約

我々は、xGen-MM-Vid (BLIP-3-Video) を紹介します。これはビデオ用のマルチモーダル言語モデルであり、特に複数のフレームにわたる時間情報を効率的にキャプチャするように設計されています。
BLIP-3-Video は、従来のビジュアル トークナイザーに加えて「テンポラル エンコーダー」を利用し、複数のフレームにわたる一連のトークンをコンパクトなビジュアル トークンのセットにマッピングします。
これにより、BLIP3-Video は競合モデルよりもはるかに少ないビジュアル トークンを使用できるようになります (例: 32 対 4608 トークン)。
私たちは、学習可能な時空間プーリングやトークン チューリング マシンのような逐次モデルなど、さまざまなタイプの時間エンコーダーを調査します。
BLIP-3-Video は、はるかに小型 (つまり 4B) であり、より少ないビジュアル トークンを使用することでより効率的でありながら、はるかに大きな最先端のモデル (例: 34B) に匹敵するビデオ質問応答精度を得ることが実験的に確認されています。

プロジェクトの Web サイトは https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html にあります。

要約(オリジナル)

We present xGen-MM-Vid (BLIP-3-Video): a multimodal language model for videos, particularly designed to efficiently capture temporal information over multiple frames. BLIP-3-Video takes advantage of the ‘temporal encoder’ in addition to the conventional visual tokenizer, which maps a sequence of tokens over multiple frames into a compact set of visual tokens. This enables BLIP3-Video to use much fewer visual tokens than its competing models (e.g., 32 vs. 4608 tokens). We explore different types of temporal encoders, including learnable spatio-temporal pooling as well as sequential models like Token Turing Machines. We experimentally confirm that BLIP-3-Video obtains video question-answering accuracies comparable to much larger state-of-the-art models (e.g., 34B), while being much smaller (i.e., 4B) and more efficient by using fewer visual tokens. The project website is at https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html

arxiv情報

著者 Michael S. Ryoo,Honglu Zhou,Shrikant Kendre,Can Qin,Le Xue,Manli Shu,Silvio Savarese,Ran Xu,Caiming Xiong,Juan Carlos Niebles
発行日 2024-10-21 17:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs はコメントを受け付けていません

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

要約

Segment Anything Model 2 (SAM 2) は、画像とビデオの両方におけるオブジェクト セグメンテーションの強力な基礎モデルとして登場し、さまざまなダウンストリーム ビデオ アプリケーションへの道を開きます。
ビデオ セグメンテーションにおける SAM 2 の重要な設計は、現在のフレーム予測のために以前のフレームからのオブジェクト認識メモリを促すメモリ モジュールです。
ただし、その貪欲選択メモリ設計には「エラー蓄積」問題があり、エラーまたはミスしたマスクがカスケードして後続のフレームのセグメンテーションに影響を及ぼし、複雑な長期ビデオに対する SAM 2 のパフォーマンスが制限されます。
この目的を達成するために、改良されたトレーニング不要のビデオ オブジェクト セグメンテーション戦略である SAM2Long を導入します。これは、各フレーム内のセグメンテーションの不確実性を考慮し、制約付きツリー検索方式で複数のセグメンテーション パスウェイからビデオ レベルの最適な結果を選択します。
実際には、ビデオ全体で固定数のセグメンテーション パスウェイを維持します。
フレームごとに、既存の経路に基づいて複数のマスクが提案され、さまざまな候補分岐が作成されます。
次に、累積スコアがより高い同じ固定数の分岐を、次のフレームの新しい経路として選択します。
最終フレームを処理した後、累積スコアが最も高いパスウェイが最終的なセグメンテーション結果として選択されます。
SAM2Long はヒューリスティック検索設計の利点を活かし、オクルージョンやオブジェクトの再出現に対して堅牢であり、複雑な長期ビデオのオブジェクトを効果的にセグメント化して追跡できます。
特に、SAM2Long は 24 の直接比較すべてで平均 3.0 ポイントの改善を達成し、SA-V や LVOS などの長期ビデオ オブジェクト セグメンテーション ベンチマークでは J&F で最大 5.3 ポイントの向上を達成しました。
コードは https://github.com/Mark12Ding/SAM2Long でリリースされています。

要約(オリジナル)

The Segment Anything Model 2 (SAM 2) has emerged as a powerful foundation model for object segmentation in both images and videos, paving the way for various downstream video applications. The crucial design of SAM 2 for video segmentation is its memory module, which prompts object-aware memories from previous frames for current frame prediction. However, its greedy-selection memory design suffers from the ‘error accumulation’ problem, where an errored or missed mask will cascade and influence the segmentation of the subsequent frames, which limits the performance of SAM 2 toward complex long-term videos. To this end, we introduce SAM2Long, an improved training-free video object segmentation strategy, which considers the segmentation uncertainty within each frame and chooses the video-level optimal results from multiple segmentation pathways in a constrained tree search manner. In practice, we maintain a fixed number of segmentation pathways throughout the video. For each frame, multiple masks are proposed based on the existing pathways, creating various candidate branches. We then select the same fixed number of branches with higher cumulative scores as the new pathways for the next frame. After processing the final frame, the pathway with the highest cumulative score is chosen as the final segmentation result. Benefiting from its heuristic search design, SAM2Long is robust toward occlusions and object reappearances, and can effectively segment and track objects for complex long-term videos. Notably, SAM2Long achieves an average improvement of 3.0 points across all 24 head-to-head comparisons, with gains of up to 5.3 points in J&F on long-term video object segmentation benchmarks such as SA-V and LVOS. The code is released at https://github.com/Mark12Ding/SAM2Long.

arxiv情報

著者 Shuangrui Ding,Rui Qian,Xiaoyi Dong,Pan Zhang,Yuhang Zang,Yuhang Cao,Yuwei Guo,Dahua Lin,Jiaqi Wang
発行日 2024-10-21 17:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree はコメントを受け付けていません

MvDrag3D: Drag-based Creative 3D Editing via Multi-view Generation-Reconstruction Priors

要約

ドラッグベースの編集は、画像生成モデルの機能によって 2D コンテンツ作成において一般的になりました。
ただし、この技術を 3D に拡張することは依然として課題です。
既存の 3D ドラッグ ベースの編集方法は、明示的な空間変換を使用するか、容量が限られた 3D 生成モデル内の暗黙的な潜在的な最適化に依存するかにかかわらず、重大なトポロジーの変更を処理したり、さまざまなオブジェクト カテゴリにわたって新しいテクスチャを生成したりするには不十分です。
これらの制限を克服するために、マルチビューの生成と事前再構築を活用する、より柔軟で創造的なドラッグベースの 3D 編集のための新しいフレームワークである MVDrag3D を紹介します。
私たちのアプローチの核心は、複数のレンダリングされたビュー上で一貫したドラッグ編集を実行する前に、強力な生成としてマルチビュー拡散モデルを使用し、その後、編集されたオブジェクトの 3D ガウスを再構成する再構成モデ​​ルを使用することです。
初期の 3D ガウスは異なるビュー間の位置ずれに悩まされる可能性がありますが、ガウスの位置が適切に位置合わせされるように調整するビュー固有の変形ネットワークによってこれに対処します。
さらに、ビューの一貫性と視覚的品質をさらに向上させるために、複数のビューから生成事前分布を抽出するマルチビュー スコア関数を提案します。
広範な実験により、MVDrag3D が 3D ドラッグ ベースの編集のための正確で生成的かつ柔軟なソリューションを提供し、さまざまなオブジェクト カテゴリと 3D 表現にわたってより多用途な編集効果をサポートすることが実証されました。

要約(オリジナル)

Drag-based editing has become popular in 2D content creation, driven by the capabilities of image generative models. However, extending this technique to 3D remains a challenge. Existing 3D drag-based editing methods, whether employing explicit spatial transformations or relying on implicit latent optimization within limited-capacity 3D generative models, fall short in handling significant topology changes or generating new textures across diverse object categories. To overcome these limitations, we introduce MVDrag3D, a novel framework for more flexible and creative drag-based 3D editing that leverages multi-view generation and reconstruction priors. At the core of our approach is the usage of a multi-view diffusion model as a strong generative prior to perform consistent drag editing over multiple rendered views, which is followed by a reconstruction model that reconstructs 3D Gaussians of the edited object. While the initial 3D Gaussians may suffer from misalignment between different views, we address this via view-specific deformation networks that adjust the position of Gaussians to be well aligned. In addition, we propose a multi-view score function that distills generative priors from multiple views to further enhance the view consistency and visual quality. Extensive experiments demonstrate that MVDrag3D provides a precise, generative, and flexible solution for 3D drag-based editing, supporting more versatile editing effects across various object categories and 3D representations.

arxiv情報

著者 Honghua Chen,Yushi Lan,Yongwei Chen,Yifan Zhou,Xingang Pan
発行日 2024-10-21 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MvDrag3D: Drag-based Creative 3D Editing via Multi-view Generation-Reconstruction Priors はコメントを受け付けていません

FrugalNeRF: Fast Convergence for Few-shot Novel View Synthesis without Learned Priors

要約

Neural Radiance Fields (NeRF) は、主に高忠実度レンダリングのためのオーバーフィッティングと長いトレーニング時間により、ショット数が少ないシナリオで重大な課題に直面しています。
FreeNeRF や SparseNeRF などの既存の方法は、周波数正則化または事前トレーニングされた事前分布を使用しますが、複雑なスケジューリングとバイアスに苦労します。
複数のスケールにわたる重み共有ボクセルを活用してシーンの詳細を効率的に表現する、新しい少数ショット NeRF フレームワークである FrugalNeRF を紹介します。
私たちの主な貢献は、スケール間の再投影誤差に基づいて疑似グラウンド トゥルース深度を選択するクロススケール幾何学適応スキームです。
これにより、外部から学習された事前分布に依存せずにトレーニングが誘導され、トレーニング データを最大限に活用できます。
また、事前トレーニングされた事前分布を統合して、収束を遅らせることなく品質を向上させることもできます。
LLFF、DTU、および RealEstate-10K での実験では、FrugalNeRF が他の少数ショット NeRF 手法よりも優れたパフォーマンスを示し、トレーニング時間を大幅に短縮し、効率的かつ正確な 3D シーン再構築のための実用的なソリューションとなることが示されています。

要約(オリジナル)

Neural Radiance Fields (NeRF) face significant challenges in few-shot scenarios, primarily due to overfitting and long training times for high-fidelity rendering. Existing methods, such as FreeNeRF and SparseNeRF, use frequency regularization or pre-trained priors but struggle with complex scheduling and bias. We introduce FrugalNeRF, a novel few-shot NeRF framework that leverages weight-sharing voxels across multiple scales to efficiently represent scene details. Our key contribution is a cross-scale geometric adaptation scheme that selects pseudo ground truth depth based on reprojection errors across scales. This guides training without relying on externally learned priors, enabling full utilization of the training data. It can also integrate pre-trained priors, enhancing quality without slowing convergence. Experiments on LLFF, DTU, and RealEstate-10K show that FrugalNeRF outperforms other few-shot NeRF methods while significantly reducing training time, making it a practical solution for efficient and accurate 3D scene reconstruction.

arxiv情報

著者 Chin-Yang Lin,Chung-Ho Wu,Chang-Han Yeh,Shih-Han Yen,Cheng Sun,Yu-Lun Liu
発行日 2024-10-21 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FrugalNeRF: Fast Convergence for Few-shot Novel View Synthesis without Learned Priors はコメントを受け付けていません

Knowledge Transfer from Simple to Complex: A Safe and Efficient Reinforcement Learning Framework for Autonomous Driving Decision-Making

要約

自動運転車には、安全で効率的な意思決定システムが不可欠です。
しかし、運転環境の複雑さと変動性により、多くのルールベースおよび機械学習ベースの意思決定アプローチの有効性が制限されます。
自動運転における強化学習は、これらの課題に対する有望な解決策を提供します。
それにもかかわらず、トレーニング中の安全性と効率性に関する懸念が、その広範な適用にとって依然として大きな障害となっています。
これらの懸念に対処するために、私たちは Simple to Complex Collaborative Decision という名前の新しい RL フレームワークを提案します。
まず、軽量シミュレーション環境で近接ポリシー最適化アルゴリズムを使用して教師モデルを迅速にトレーニングします。
より複雑なシミュレーション環境では、学生エージェントが次善の行動を示したときに、危険な状況を回避するための行動の価値を評価することによって教師モデルが介入します。
また、アダプティブ クリッピング PPO と呼ばれる革新的な RL アルゴリズムも導入します。これは、教師と生徒の両方のポリシーによって生成されたサンプルの組み合わせを使用してトレーニングされ、サンプルの重要性に基づいた動的なクリッピング戦略を採用します。
さらに、KL ダイバージェンスをポリシー最適化の制約として使用し、それを制約のない問題に変換して、教師のポリシーについての生徒の学習を促進します。
最後に、段階的なウィーニング戦略が採用され、時間の経過とともにスチューデント エージェントが独立して探索できるようになります。
高速道路の車線変更シナリオにおけるシミュレーション実験では、最先端のベースライン アルゴリズムと比較して、S2CD フレームワークが学習効率を高め、トレーニング コストを削減し、トレーニング中の安全性を大幅に向上させることが実証されました。
このアプローチにより、教師モデルと生徒モデルの間で、また教師モデルが最適ではない場合でも、効果的な知識伝達が保証されます。

要約(オリジナル)

A safe and efficient decision-making system is crucial for autonomous vehicles. However, the complexity and variability of driving environments limit the effectiveness of many rule-based and machine learning-based decision-making approaches. Reinforcement Learning in autonomous driving offers a promising solution to these challenges. Nevertheless, concerns regarding safety and efficiency during training remain major obstacles to its widespread application. To address these concerns, we propose a novel RL framework named Simple to Complex Collaborative Decision. First, we rapidly train the teacher model using the Proximal Policy Optimization algorithm in a lightweight simulation environment. In the more intricate simulation environment, the teacher model intervenes when the student agent exhibits suboptimal behavior by assessing the value of actions to avert dangerous situations. We also introduce an innovative RL algorithm called Adaptive Clipping PPO, which is trained using a combination of samples generated by both teacher and student policies, and employs dynamic clipping strategies based on sample importance. Additionally, we employ the KL divergence as a constraint on policy optimization, transforming it into an unconstrained problem to accelerate the student’s learning of the teacher’s policy. Finally, a gradual weaning strategy is employed to ensure that, over time, the student agent learns to explore independently. Simulation experiments in highway lane-change scenarios demonstrate that the S2CD framework enhances learning efficiency, reduces training costs, and significantly improves safety during training when compared with state-of-the-art baseline algorithms. This approach also ensures effective knowledge transfer between teacher and student models, and even when the teacher model is suboptimal.

arxiv情報

著者 Rongliang Zhou,Jiakun Huang,Mingjun Li,Hepeng Li,Haotian Cao,Xiaolin Song
発行日 2024-10-21 17:34:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Knowledge Transfer from Simple to Complex: A Safe and Efficient Reinforcement Learning Framework for Autonomous Driving Decision-Making はコメントを受け付けていません

Comparing Differentiable and Dynamic Ray Tracing: Introducing the Multipath Lifetime Map

要約

車車間通信などの動的なシナリオの存在が増加するにつれ、無線伝播モデリング ツールは無線チャネルの急速に変化する性質に適応する必要があります。
最近、これらの課題に対処するために、Differentiable フレームワークと Dynamic Ray Tracing フレームワークの両方が登場しました。
ただし、これらのアプローチがどのように異なるのか、特定の状況でどれを使用する必要があるのか​​について混乱が生じることがよくあります。
このペーパーでは、これら 2 つの技術の概要と、UniBo の 3DSCAT と NVIDIA の Sionna という 2 つの最先端ツールとの比較分析を提供します。
これらの方法の範囲をより正確に特徴付けるために、新しいシミュレーション ベースのメトリックであるマルチパス ライフタイム マップを導入します。これにより、環境の幾何学的記述のみに基づいて無線チャネルの空間的および時間的コヒーレンスの評価が可能になります。
最後に、私たちの指標は古典的な都市部のストリートキャニオンシナリオで評価され、測定キャンペーンから得られたものと同様の結果が得られます。

要約(オリジナル)

With the increasing presence of dynamic scenarios, such as Vehicle-to-Vehicle communications, radio propagation modeling tools must adapt to the rapidly changing nature of the radio channel. Recently, both Differentiable and Dynamic Ray Tracing frameworks have emerged to address these challenges. However, there is often confusion about how these approaches differ and which one should be used in specific contexts. In this paper, we provide an overview of these two techniques and a comparative analysis against two state-of-the-art tools: 3DSCAT from UniBo and Sionna from NVIDIA. To provide a more precise characterization of the scope of these methods, we introduce a novel simulation-based metric, the Multipath Lifetime Map, which enables the evaluation of spatial and temporal coherence in radio channels only based on the geometrical description of the environment. Finally, our metrics are evaluated on a classic urban street canyon scenario, yielding similar results to those obtained from measurement campaigns.

arxiv情報

著者 Jérome Eertmans,Enrico Maria Vittuci,Vittorio Degli Esposti,Laurent Jacques,Claude Oestges
発行日 2024-10-21 07:28:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 51-08, cs.LG, D.2.2, eess.SP | Comparing Differentiable and Dynamic Ray Tracing: Introducing the Multipath Lifetime Map はコメントを受け付けていません

Trust or Bust: Ensuring Trustworthiness in Autonomous Weapon Systems

要約

自律兵器システム (AWS) を軍事作戦に統合することは、重要な機会と課題の両方をもたらします。
このペーパーでは、AWS における信頼の多面的な性質を検討し、偏見、運用上の失敗、説明責任に関連するリスクを軽減するために信頼性が高く透明性のあるシステムを確立する必要性を強調します。
人工知能 (AI) の進歩にもかかわらず、特に一か八かの軍事用途において、これらのシステムの信頼性は依然として重要な問題です。
この調査では、既存の文献を体系的にレビューすることで、AWS の開発およびデプロイメント段階における信頼のダイナミクスの理解におけるギャップを特定しています。
これらの進行中の課題に対処するために、技術者、倫理学者、軍事戦略家を含む協力的なアプローチを提唱しています。
この調査結果は、説明責任と国際人道法の順守を確保するために、人間と機械のチーム化とシステムの分かりやすさの向上の重要性を強調しています。
最終的に、このペーパーは、AWS の倫理的影響と、防衛の文脈における信頼できる AI の必須事項に関する現在進行中の議論に貢献することを目的としています。

要約(オリジナル)

The integration of Autonomous Weapon Systems (AWS) into military operations presents both significant opportunities and challenges. This paper explores the multifaceted nature of trust in AWS, emphasising the necessity of establishing reliable and transparent systems to mitigate risks associated with bias, operational failures, and accountability. Despite advancements in Artificial Intelligence (AI), the trustworthiness of these systems, especially in high-stakes military applications, remains a critical issue. Through a systematic review of existing literature, this research identifies gaps in the understanding of trust dynamics during the development and deployment phases of AWS. It advocates for a collaborative approach that includes technologists, ethicists, and military strategists to address these ongoing challenges. The findings underscore the importance of Human-Machine teaming and enhancing system intelligibility to ensure accountability and adherence to International Humanitarian Law. Ultimately, this paper aims to contribute to the ongoing discourse on the ethical implications of AWS and the imperative for trustworthy AI in defense contexts.

arxiv情報

著者 Kasper Cools,Clara Maathuis
発行日 2024-10-21 05:22:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.RO | Trust or Bust: Ensuring Trustworthiness in Autonomous Weapon Systems はコメントを受け付けていません

Toward Generalizing Visual Brain Decoding to Unseen Subjects

要約

視覚脳デコーディングは、人間の脳活動から視覚情報を解読することを目的としています。
大きな進歩にもかかわらず、現在の脳解読研究の重大な限界の 1 つは、目に見えない対象に対する一般化能力の欠如にあります。
これまでの研究は通常、異なる被験者が異なる脳活動を示すという観察に基づいて個人の脳活動を解読することに焦点を当てているが、脳の解読が目に見えない被験者に一般化できるかどうかは依然として不明である。
この研究はこの疑問に答えることを目的としています。
まず、ヒューマン コネクトーム プロジェクト (HCP) の映画鑑賞タスクに参加した 177 人の被験者を対象とした、刺激と画像と fMRI と応答のペアで構成される画像と fMRI データセットを統合します。
このデータセットを使用すると、参加者の増加に伴う脳の解読パフォーマンスを調査できます。
次に、以前の方法のように個人ごとに異なるネットワークヘッドやトークナイザーを採用するのではなく、すべての被験者に均一な処理を適用する学習パラダイムを提示します。これにより、さまざまな被験者にわたる汎化能力を探索するために多数の被験者に対応できます。
一連の実験が行われ、次のような結果が得られました。
第 1 に、ネットワークはトレーニング対象の増加に応じて明確な一般化機能を示します。
第 2 に、一般化機能は一般的なネットワーク アーキテクチャ (MLP、CNN、および Transformer) に共通です。
第三に、汎化パフォーマンスは被験者間の類似性に影響されます。
私たちの調査結果は、個人間の脳活動の本質的な類似性を明らかにしました。
より大規模でより包括的なデータセットの出現により、将来的には脳デコーディング基盤モデルをトレーニングすることが可能になります。
コードとモデルは https://github.com/Xiangtaokong/TGBD で見つけることができます。

要約(オリジナル)

Visual brain decoding aims to decode visual information from human brain activities. Despite the great progress, one critical limitation of current brain decoding research lies in the lack of generalization capability to unseen subjects. Prior works typically focus on decoding brain activity of individuals based on the observation that different subjects exhibit different brain activities, while it remains unclear whether brain decoding can be generalized to unseen subjects. This study aims to answer this question. We first consolidate an image-fMRI dataset consisting of stimulus-image and fMRI-response pairs, involving 177 subjects in the movie-viewing task of the Human Connectome Project (HCP). This dataset allows us to investigate the brain decoding performance with the increase of participants. We then present a learning paradigm that applies uniform processing across all subjects, instead of employing different network heads or tokenizers for individuals as in previous methods, which can accommodate a large number of subjects to explore the generalization capability across different subjects. A series of experiments are conducted and we have the following findings. First, the network exhibits clear generalization capabilities with the increase of training subjects. Second, the generalization capability is common to popular network architectures (MLP, CNN and Transformer). Third, the generalization performance is affected by the similarity between subjects. Our findings reveal the inherent similarities in brain activities across individuals. With the emerging of larger and more comprehensive datasets, it is possible to train a brain decoding foundation model in the future. Codes and models can be found at https://github.com/Xiangtaokong/TGBD.

arxiv情報

著者 Xiangtao Kong,Kexin Huang,Ping Li,Lei Zhang
発行日 2024-10-21 01:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Toward Generalizing Visual Brain Decoding to Unseen Subjects はコメントを受け付けていません