Parmi les nouveaux outils offerts aux développeurs avec CUDA 4.0, citons la mise en place de NVIDIA GPU Direct 2.0. Il s'agit d'une communication point à point dans les configurations multi-GPU. Il devient par exemple possible de permettre à une puce graphique de récupérer des données dans la mémoire accompagnant l'autre puce graphique sans repasser par la mémoire système.
Dans la même veine, les ingénieurs de NVIDIA mettent en place un espace de mémoire unifié. L'UVA ou Unified Virtual Adressing fournit un seul et même espace d'adresses mémoire pour la mémoire système et la (ou les) mémoire(s) GPU dans le but d'offrir un accès simplifié et donc plus rapide. Signalons également la possibilité pour un ou plusieurs threads d'accéder à plusieurs GPU. Enfin, NVIDIA propose de nouvelles routines via la librairie C++ Thrust, des routines naturellement optimisées pour la programmation GPU.
Pour l'heure, NVIDIA propose simplement une version Beta (tout de même en Release Candidate) de CUDA 4.0 à ses développeurs enregistrés. L'ensemble des nouveautés concernent les processeurs graphiques basées sur l'architecture Fermi (les GeForce séries 400/500) ainsi que les futures architecture NVIDIA (Kepler notamment).