Jusqu'à présent, la firme au caméléon s'était montrée particulièrement discrète au sujet des capacités de calcul en GPU Computing de son architecture Kepler. On savait bien sûr que le nouvel agencement des blocs de calcul, sous forme de SMX et non plus de SM offrait un rapport performance/watt trois fois supérieur à l'architecture Fermi (voir notre test de la GeForce GTX 680). Pour le marché du HPC, autrement dit du High Performance Computing, Kepler introduit l'Hyper-Q une fonctionnalité assez fondamentale. Avec Fermi, l'exécution des tâches était limitée par le processeur : une seule tâche MPI pouvait être traitée à la fois. Kepler permet dorénavant l'exécution simultanée de 32 tâches MPI, chaque tâche pouvant être contrôler par l'un des cœurs de l'un des processeurs animant le rack. Cela devrait permettre de maximiser l'utilisation de la puce graphique tout en réduisant les temps d'inactivité du processeur. L'architecture Kepler introduit également la notion de parallélisme dynamique où la puce graphique s'adapte aux données en lançant elle-même de nouveaux threads. Cela évite des allers/retours permanents entre CPU et GPU avec les gains que l'on peut imaginer notamment en terme de temps de latence par exemple.
Seulement voilà, ces deux nouvelles fonctions assez fondamentales ne seront disponibles que sur les puces... GK110 attendues pour le quatrième trimestre 2012. Du coup NVIDIA qui profite de la GTC pour annoncer sa première carte Tesla K10 à base d'architecture Kepler et à destination des supercalculateurs se voit contraint d'annoncer dans la foulée l'arrivée de la K20 pour la quatrième trimestre 2012 avec prise en charge des fonctions Hyper-Q et Dynamic Parallelism.
Avec la Tesla K10, NVIDIA propose une carte munie de deux puces GK104 et offrant 3 fois les performances en simple précision de la précédente Tesla M2090 et 1,8 fois la bande passante mémoire, la carte dispose de 8 Go de mémoire, chaque GPU étant doté de 4 Go. La Tesla K20 est annoncée comme offrant trois fois les performances en double précision.
Du côté des outils de développement, NVIDIA annonce pèle mêle l'arrivée de Nsight pour Linux & Mac, la sortie de CUDA 5 et aussi l'implémentation de la fonctionnalité GPU Direct. Cette dernière permet l'échange de données entre la mémoire de chacune des puces graphiques sans passer par le processeur. L'architecture Kepler implémente cette fonctionnalité exploitable par le biais de CUDA 5. Dans le cadre de serveurs, cet échange de données se fait également de serveur à serveur par la connexion réseau. Et comme ce n'est pas tout, CUDA 5 introduit la possibilité pour les développeurs de faire appel à des bibliothèques de code tierces.