{"id":45,"date":"2006-07-13T21:49:44","date_gmt":"2006-07-13T19:49:44","guid":{"rendered":"http:\/\/www.glorf.it\/blog\/2006\/07\/13\/sql-talk\/db-defekte\/ursachen-fur-datenbank-defekte-teil-2\/"},"modified":"2006-07-18T18:05:08","modified_gmt":"2006-07-18T16:05:08","slug":"ursachen-fur-datenbank-defekte-teil-2","status":"publish","type":"post","link":"http:\/\/www.glorf.it\/blog\/2006\/07\/13\/sql-talk\/db-defekte\/ursachen-fur-datenbank-defekte-teil-2","title":{"rendered":"Ursachen f&#252;r Datenbank-Defekte (Teil 2)"},"content":{"rendered":"<p>Im <a href=\"http:\/\/www.glorf.it\/blog\/2006\/07\/12\/sql-talk\/db-defekte\/ursachen-fur-datenbank-defekte-teil-1\/\">ersten Teil<\/a> der Serie &#252;ber Ursachen f&#252;r Datenbank-Defekte habe ich &#252;ber ein paar sehr skurrile Ursachen von defekten Datenbanken berichtet. Heute geht es um ein sehr ernstes Thema: die Festplatten oder genauer das gesammte I\/O-Subsystem.<\/p>\n<p>Die ungeschlagene Nummer eins sind hierbei <strong>ungeeignete Festplatten<\/strong>. Es gibt immer wieder EDV-H&#228;ndler, die unseren Kunden Server mit billigen EIDE-Festplatten verkaufen. (Unser Klientel hat den Ruf besonders kostenbewusst zu sein, vermutlich ist da etwas dran.) Dabei sind RAID-Systeme mit EIDE-Festplatten offenbar auch nicht viel besser. Weil die Kunden in der Regel zun&#228;chst nicht glauben, dass die Probleme durch deren Hardware verursacht werden, haben wir sogar eine Zeitlang mit unserer Software einen Batch installiert, der eine sehr gro&#223;e Datei erzeugte und die dann immer hin und her kopierte. Nach jedem Kopiervorgang wurden die Dateien bin&#228;r verglichen. Wenn dabei Unterschiede auftreten, dann &#252;berzeugt das auch den EDV-Laien.<br \/>\nLeider findet man damit nur die v&#246;llig schrottigen Systeme, deswegen haben wir es dann wieder gelassen&#8230;<\/p>\n<p>Warum IDE-Festplatten f&#252;r Serversysteme nicht geeignet sind, beschreibt der TecChannel-Artikel &quot;<a href=\"http:\/\/www.tecchannel.de\/storage\/grundlagen\/401914\/\" target=\"_blank\">Gefahr: IDE-Festplatten im Dauereinsatz<\/a>&quot;. Aus meiner Sicht gilt das gleiche f&#252;r Einzelplatzsysteme auf denen der Kunde seine Daten gespeichert hat.<\/p>\n<p>Knapp dahinter stehen <strong>Festplatten mit eingeschaltetem Schreibcache<\/strong>, das gilt auch f&#252;r Raid-Systeme. Wenn der Schreibcache nicht abgesichert ist (z.B. mit einer Batterie gepuffert oder mit einer USV abgesichert), dann hat bei einem Stromausfall oder beim versehentlichen Dr&#252;cken des Reset-Schalters (wie um alles in aller Welt kann das passieren?) mit sehr hoher Wahrscheinlichkeit das Transaktionslog einen irreparablen Treffer. H&#228;ufig ist auch die MDF betroffen.<br \/>\nDas kommt offenbar so oft vor, dass Microsoft sogar einen KB-Artikel dazu geschrieben hat: &quot;<a href=\"http:\/\/support.microsoft.com\/default.aspx?scid=kb;en;86903\" target=\"_blank\">INF: SQL Server and Caching Disk Controllers<\/a>&quot;.<br \/>\nLeider bringt ein eingeschalteter Schreibcache aber auch wirklich sp&#252;rbare Performance. Deswegen lohnt es sich an dieser Stelle etwas mehr Geld auszugeben und ein Raid-System mit SCSI-Platten (siehe oben) und abgesichertem Schrei-Cache anzuschaffen.<\/p>\n<p>Diesen Punkt beschreibt Microsoft unter anderem in dem Dokument: &quot;<a href=\"http:\/\/www.microsoft.com\/technet\/prodtechnol\/sql\/2000\/maintain\/sqlIObasics.mspx\" target=\"_blank\">SQL Server 2000 I\/O Basics<\/a>&quot;. Ein wirkluich sehr erhellendes Dokument, dass auch noch viele andere Dinge erkl&#228;rt auf die ich ein ander mal zu sprechen komme.<\/p>\n<p>Zuerst dachte ich Hybrid-Festplatten, genauer &quot;Hybrid Hard Drives with Non-Volatile Flash&quot; (siehe auch den Vortrag &quot;<a href=\"http:\/\/download.microsoft.com\/download\/9\/8\/f\/98f3fe47-dfc3-4e74-92a3-088782200fe7\/TWST05002_WinHEC05.ppt\" target=\"_blank\">Hybrid Hard Drives with Non-Volatile Flash and Longhorn<\/a>&quot; von der WinHEC) w&#228;ren daf&#252;r die L&#246;sung, aber gestern las ich in der <a href=\"http:\/\/www.heise.de\/ct\/06\/15\/006\/\" target=\"_blank\">ct15\/2006<\/a>, dass eine NAND-Speicherzelle nur rund 200.000 L&#246;sch- oder Schreibaktionen aush&#228;lt. Bei der Menge an Schreiboperationen, die der SQL Server verursacht, k&#246;nnte das zu einem Problem werden.<\/p>\n<p>Als weiteres gibt es noch eine ganze Reihe von Probleme, die <strong>im Umfeld des I\/O-Subsystems<\/strong> stecken k&#246;nnen. Neben einem Fall von defektem Hauptspeicher im RAID-Controller konnten wir fr&#252;her mehrfach Treiber-Probleme als Ursachen ausmachen. Der Kollege, der damals unsere internen Systeme betreute, erz&#228;hlte mir dass f&#252;r die RAID-Controller, die unsere Firma f&#252;r den interen Einsatz anschafft, bei den Tests immer wieder Bugs in deren internem Microcode festgestellt wurden (keine Ahnung, wie die das testen). Auch hier sollte man deswegen immer die neueste Software vom Hersteller einsetzen&#8230;<br \/>\nHier noch ein paar weiterf&#252;hrende Hinweise, die Microsoft gut verstreut hat:<\/p>\n<ul>\n<li><a href=\"http:\/\/support.microsoft.com\/default.aspx?scid=kb;en;826433\" target=\"_blank\">PRB: Additional SQL Server Diagnostics Added to Detect Unreported I\/O Problems<\/a><\/li>\n<li><a href=\"http:\/\/support.microsoft.com\/default.aspx?scid=kb;en;841776\" target=\"_blank\">FIX: Additional diagnostics have been added to SQL Server 2000 to detect unreported read operation failures<\/a><\/li>\n<li><a href=\"http:\/\/support.microsoft.com\/default.aspx?scid=kb;en;828339\" target=\"_blank\">PRB: Error message 823 may indicate hardware problems or system problems<\/a><\/li>\n<\/ul>\n<p>Und zuletzt einer der wichtigsten Hinweise: Microsoft bietet zum Test des I\/O-Substems ein wunderbares Werkzeug an, dass die Zugriffe des SQL Servers simuliert und dann einen Statusbericht abgibt: <strong><a href=\"http:\/\/support.microsoft.com\/?scid=kb%3Ben-us%3B231619\" target=\"_blank\">SQLIOStress.exe<\/a><\/strong>.<br \/>\nDamit kann man ziemlich akurat die meisten aller I\/O-Probleme nachweisen.<\/p>\n<p>Demn&#228;chst mehr an dieser Stelle&#8230;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Im ersten Teil der Serie &#252;ber Ursachen f&#252;r Datenbank-Defekte habe ich &#252;ber ein paar sehr skurrile Ursachen von defekten Datenbanken berichtet. Heute geht es um ein sehr ernstes Thema: die Festplatten oder genauer das gesammte I\/O-Subsystem. Die ungeschlagene Nummer eins sind hierbei ungeeignete Festplatten. Es gibt immer wieder EDV-H&#228;ndler, die unseren Kunden Server mit billigen [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[7],"tags":[],"_links":{"self":[{"href":"http:\/\/www.glorf.it\/blog\/wp-json\/wp\/v2\/posts\/45"}],"collection":[{"href":"http:\/\/www.glorf.it\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.glorf.it\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.glorf.it\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"http:\/\/www.glorf.it\/blog\/wp-json\/wp\/v2\/comments?post=45"}],"version-history":[{"count":0,"href":"http:\/\/www.glorf.it\/blog\/wp-json\/wp\/v2\/posts\/45\/revisions"}],"wp:attachment":[{"href":"http:\/\/www.glorf.it\/blog\/wp-json\/wp\/v2\/media?parent=45"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.glorf.it\/blog\/wp-json\/wp\/v2\/categories?post=45"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.glorf.it\/blog\/wp-json\/wp\/v2\/tags?post=45"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}