Les bases de données comparées sont Cassandra 0.6.10 (la base NoSQL développée et utilisée par Facebook, puis maintenue par Apache), HBase 0.20.6, MongoDB 1.6.5 et Riak 0.14. Thibault Dory, l'étudiant à l'origine du rapport, a téléchargé 20 000 pages de Wikipédia, toutes au format XML et avec un identifiant unique. Au total, les fichiers représentaient 620 Mo de données.
Il en ressort notamment :
- En lecture, Cassandra et MongoDB sont au coude à coude, dépassant Riak et très largement HBase, qui gère moins bien la montée en charge.
- Les performances de MapReduce sont stables en fonction de la taille de cluster sur Cassandra. MongoDB et Riak gèrent assez bien la montée en charge, mais ont des performances plus faibles à petit volume que la base de données de Facebook. HBase, là encore, montre ses difficultés à gérer la montée en charge.
L'étudiant compte parfaire ses tests, notamment en les testant à d'autres bases de données. Il cite entre autres Terrastore, Voldemort et Scalaris. Il souhaite également augmenter le volume de données à traiter pour donner une portée plus générale à ses résultats.
Comparing noSQL databases : benchmark
View more presentations from Thibault Dory.