Heute ließ ich mir die vollmundig angepriesene "Studie zu Open Source-Datenbanken" von it-novum schicken und war mächtig enttäuscht. Man muss schon das Kleingedruckte lesen: Tatsächlich werden lediglich MySQL und PostgreSQL in Bezug auf Eignung als Data-Warehouse-Engine verglichen…

Ich hatte mich tatsächlich auf eine Studie gefreut, die den Namen verdient. Daher war ich entsprechend enttäuscht als ich mich durch die langatmige und müde Begründung durch gequält hatte, warum eine Studie zu Open Source-Datenbanken einfach viel zu aufwändig wäre und man sich auf die zwei Systeme beschränken müsse: Hier gebe es ja schrecklich viele und wöchentlich kämen neue hinzu. Dabei war das Ziel Data-Warehouse doch vorgegeben: Gibt es denn echt keine ausgereiften Open-Source-OLAP-Systeme, die hier in Frage gekommen wären?

Als ich zum Performancevergleich kam, verging mir die Lust auf das Weiterlesen: Das Testsystem mit Windows Server 2008 R2 hatte sagenhafte 4 GBytes RAM. Für MySQL wurde MyISAM als Storage-Engine verwendet und extra darauf geachtete, "dass kein Query-Cache eingestellt war". Ehrlich gesagt ärgere ich mich über so eine Konfiguration: Welche normale Anwender würde denn ein Data-Warehouse so nutzen? Kein Cache, wenig RAM, keine optimierten Indexe, MyISAM-Engine.

Ich bin ja wirklich kein Fan oder Kenner von MySQL oder PostgreSQL, aber unter diesen Vorzeichen einen Performancevergleich anzusetzen, haben sie nicht verdient. Was mich eigenartig berührt ist, dass die Macher der Studie das sogar im Fazit so schreiben: "[…] hat sich gezeigt, dass die beiden evaluierten Systeme sich als Data Warehouse eignen, allerdings Optimierungen bei der Konfiguration dieser Systeme notwendig sind, um mit so großen Datenbeständen arbeiten zu können."

Komischerweise werden InMemory-Lösungen hier komplett ausgeblendet. Dabei würde MySQL hier ja sogar eine InMemory-Storage-Engine bieten, die später mal nebenbei erwähnt wird. Dabei kamen die Macher sogar auf den Gedanken mal als Außer-Konkurrenz-Vergleich Mondrain her zu nehmen: "Solange die Daten von Mondrian im Cache gehalten werden können, liefern die evaluierten Datenbanken beide eine sehr schnelle Performance ab." Das merkt man auch im Performance-Vergleich, hier schneidet Infrobright-Mondrian mit dem Caching einfach besser ab. Seltsam.

Obwohl nur zwei Systeme verglichen werden, erfolgt in der Zusammenfassung keine echte Gegenüberstellung. Stattdessen werden die einzelnen Kriterien mit Punkten in getrennten Kapiteln bewertet und gewichtet. Später werden die Summen dann gegenübergestellt: die gewichteten Punkte ergeben bspw. einen Endstand von 910 zu 940 im Bereich "Systemanforderungen und Softwareanbindung". Das ist doch mal eine Aussage. Hier muss man sich nicht die Mühe machen, dass man anhand seiner speziellen Anforderungen die Features selber gewichtet und zu einem individuellen Ergebnis bekommt. Nein, hier ist es ganz einfach: PostgreSQL ist mit 940 Punkten einfach besser…

Wer sich selber eine Meinung über die Studie bilden möchte: Hier ist der Link. Man muss eine gültige Mail-Adresse angeben und Java-Skript eingeschaltet haben.

PS: OK, die Jungs haben sich vermutlich Mühe gegeben und würden sich beim Lesen meines Kommentars wohl ungerecht behandelt fühlen. Stimmt, das war jetzt viel Rumgemotze, aber ich bin echt enttäuscht und vor lauter Kopf-Schütteln schon ganz verspannt. Da ist mir kein versöhnlicher Schluss eingefallen. Sorry.