Hans-Heinrich Jörgensen  
„Traue keiner Statistik,.......“ 
("Der Heilpraktiker und Volksheilkunde" Heft 7/2004) 

„......die du nicht selbst gefälscht hast!“ Dieses Bonmot wird dem ehemaligen britischen Premier Winston Churchill zugeschrieben. Mit großer Wahrscheinlichkeit stammt es nicht von ihm. Aber wie auch immer, man muss die Statistik nicht fälschen. Auch mit korrekter Statistik kann man trefflich die Wirklichkeit verzerren. Und da Wirksamkeitsstudien in der „Evidenz basierten“ Medizin den Nutzen ihrer hochgelobten Produkte ausschließlich statistisch belegen können, sollten wir uns ein wenig mit den Begriffen auseinandersetzen, damit uns nicht allzu oft ein X für ein U vorgemacht wird. 

Über Jahrhunderte hinweg wurde das therapeutische Handeln von den subjektiven Beobachtungen der Ärzte und dem Wohlbefinden der Patienten bestimmt. Sicher mit vielen Fehlern behaftet, trotzdem nicht immer der schlechteste Weg. Die Gesetzgebung und eine fast religiöse Wissenschaftsgläubigkeit zwingen uns heute Spielregeln auf, nach denen nur die Therapie erlaubt ist, von der zuvor andere behauptet haben, sie sei die richtige. Die Glaubwürdigkeit dieser anderen gilt a priori als gegeben, wenn ihr Schreibtisch in einem Bundesinstitut steht oder ihr Stuhl ein Lehrstuhl ist. Die Tatsache, dass sie würdig genug sind, ihnen Glauben zu schenken, heißt aber noch lange nicht, dass alles, was sie von sich geben, auch hehre Wahrheit ist. Auch sie machen Fehler, übersehen etwas oder deuten etwas irgendwo hinein, haben eigene Erwartungen und Weltbilder, schlimmsten Falls eigene Interessen. 

Um eine Therapie "marktfähig" zu machen, genügt nicht mehr die positive Erfahrung des Patienten. Die Ergebnisse müssen messbar sein, sie müssen wiederholbar sein und sie müssen Amt und Arzt überzeugen. Dazu werden "Studien" erstellt, die stets von sich behaupten, statistisch signifikant den Sinn der Therapie zu belegen. Seien Sie versichert, jede veröffentlichte Studie zeigt signifikante Ergebnisse, hätte sie keine, würde sie nicht veröffentlicht sondern im Archiv versenkt. Die Frage ist nur, ob die behauptete Signifikanz denn wirklich stimmt, vor allem aber, ob damit eine nutzbringende Erkenntnis bewiesen ist. Die Statistik birgt eine Fülle von Stolpersteinen und Irrtumsmöglichkeiten, die Interpretation ihrer Ergebnisse noch mehr. Sie schafft die ungeahnte Möglichkeit, mit der Wahrheit zu lügen, zu täuschen, zu verzerren, zu verschweigen. Meist nicht einmal aus Bosigkeit, sondern weil man selbst einem Irrtum, einer zu fest eingebrannten Erwartung oder auch nur einer Wissenslücke aufgesessen ist. Ich will versuchen, Sie ein wenig in die Trickkiste der Statistik schauen zu lassen, damit sie zukünftig "Studien" etwas kritischer lesen. 

Stauchen, Strecken, Ausschneiden 
Seit vor jedem Schlafzimmer ein PC steht, ist nicht nur die Geburtenziffer rapide zurück gegangen, sondern jeder kann jede beliebige Zahlenreihe auf alle möglichen Zusammenhänge hin untersuchen und vergleichen und daraus dann wunderschöne Diagramme zaubern. Wir werden mit einer Flut von überzeugenden Darstellungen überschwemmt, hinter denen sich oft nur wenig mehr als ein Nichts versteckt. 

Therapeutische Ergebnisse eines neuen Medikamentes lassen sich durch Balkendiagramme oder Kurven sehr viel eindrucksvoller darstellen, als mit Zahlen allein. Jeder PC ermöglicht heute solche überzeugenden Augenwischereien. In  Abbildung 1 finden sie eine Zahlenreihe und die dazu gehörenden Diagramme, die wir einfach als den Cholesterinspiegel eines Patienten über 10 Monate hinweg betrachten. Mit minimalen Schwankungen in der gleichen Größenordnung nach oben wie unten bleibt er schließlich unverändert, wie Skala 1 zeigt. Die Balkenhöhe entspricht der Realität. In Skala 2 ist die Y-Achse (senkrecht) begrenzt auf den Schwankungsspielraum. Dadurch entsteht ein Lupeneffekt, der plötzlich kleinste Veränderungen deutlich erkennbar macht. Das kann durchaus sinnvoll sein, wenn nämlich diesen Minimaleffekten eine diagnostische oder therapeutische Bedeutung zukommt. Meist wird diese Technik jedoch dazu mißbraucht, um Unbedeutendes bedeutsam erscheinen zu lassen. Noch eindrucksvoller wird das Bild, wenn man die senkrechte Y-Achse streckt und die horizontale X-Achse staucht, wie in den Skalen 3 und 4, die zudem deutlich machen, wie durch Ausschnitte plötzlich wünschenswerte Entwicklungen bewiesen werden. Auch weglassen kann zur Lüge werden. 

Und die beiden Skalen der privaten Konsumausgaben von 2000 bis 2003 (Abbildung 2)zeigen, wie man ein immer noch hohes Wohlstandsniveau zur Katastrophe umdeuten kann. 

Aber selbst statistische Korrelanz beweist noch lange nicht Kausalität. Der Rückgang der Störche in Südschweden korreliert mit der Geburtenziffer, ist aber - wie ich inzwischen weiß - sicher nicht die Ursache. Dass 80jährige sowohl einen höheren Cholesterinspiegel haben wie auch eine höhere Sterblichkeit korreliert ebenso, ohne jedoch einen Ursachenbeweis zu liefern. 

Signifikant oder relevant? 
Statistisch signifikant, kontrolliert, randomisiert und doppelt verblindet – ohne diese Merkmale ist höchstes Misstrauen geboten. Aber auch mit diesen erfüllten Kriterien ist man gut beraten, das Ergebnis sorgsam auf Relevanz, Sinnhaftigkeit und Aussagekraft zu prüfen. 

Da ist die Sache mit der Signifikanz, deren Bedeutung (lat. = significancia) völlig verzerrt wurde, was uns eine Fülle von Veröffentlichungen beschert hat, die zwar statistisch signifikante Unterschiede zwischen zwei Zahlen aufzeigen, für den suchenden Therapeuten aber ohne jede Bedeutung sind. Signifikant heißt nicht etwa, dass die Ergebnisse bedeutend sind, wie die Übersetzung vermuten ließe, sondern dass die Irrtumswahrscheinlichkeit, jene Wahrscheinlichkeit, dass das schöne Ergebnis nur ein Zufallstreffer war,  unter 5% liegt. In der Ergebnistabelle steht dann p<0,05. Diese 5% sind völlig willkürlich gewählt und gelten allgemein als Konsens. Eine Studie mit höherer Irrtumswahrscheinlichkeit hat keine Chance, in einer renommierten  Fachzeitschrift veröffentlicht zu werden. Darum müssen Sie die Signifikanz auch nicht prüfen – obwohl das recht einfach geht. Ich zeig's am Schluss des Aufsatzes für Freunde der Mathematik. Aber stolze 5% Irrtumswahrscheinlichkeit akzeptieren wir, wenn wir ein neues Medikament als wirksam ansehen. 

Am Frankfurter Flughafen starten und landen täglich etwas mehr als 1200 Flugzeuge. Selbst wenn jeden Tag 60 Maschinen (5%) crashend in Flammen aufgehen, könnten wir signifikant behaupten, in Frankfurt sei das Fliegen absolut sicher. 

Relativer und absoluter Nutzen 
Wenn es uns gelingt, diese Zahl zu halbieren, dann können wir unsere neuen Sicherheitsmaßnahmen mit der riesigen Schlagzeile „Risiko um 50% gesenkt“ oder „Sicherheit verdoppelt“ verkaufen. Dabei übersieht jeder Leser zunächst, dass der absolute Nutzen keineswegs bei 50% sondern gerade einmal bei 2,5% liegt. Nicht 50% der Flieger bleiben heil, sondern 50% der bislang verunfallten 5%. 

Unsere Zeitungen – achten Sie einmal darauf – sind voll von Berichten wie „42% weniger Herzinfarkte“ oder „Sterblichkeit um 47% verringert“. Diese Berichte stellen den relativen Nutzen einer Therapie dar, verschweigen uns aber aus gutem Grund geschamig den absoluten Nutzen. Nur selten kann man ihn  aus dem Text heraus filtern. Dazu braucht man die Zahlen aller Probanden der Studie, um den Erfolg der Verum-Probanden mit denen der Placebo-Empfänger vergleichen zu können. Die Differenz dieser beiden Teilgruppen ist der abolute Nutzen. Der liegt bei den meisten der um die Trophäe des Spitzenreiters konkurrierenden Kreislaufmedikamenten so um zwei bis vier Prozent. Und das über einige Jahre gerechnet. Auf's Jahr umgerechnet oft deutlich unter 1%, d.h. wenn 100 Leute das Zeug ein Jahr schlucken, hat noch nicht einmal einer davon einen Nutzen. "NNT = number needed to treat" nennen wir diese Zahl 

Anders ausgedrückt am Beispiel einer gern zitierten großen Studie zu einem Cholesterinsenker: wenn die Sterblichkeit binnen 5,4 Jahren in der Placebogruppe bei 12,2% liegt und in der Verumgruppe bei 8,7%, dann sind die folgenden drei  Aussagen alle richtig: 

1. Der absolute Nutzen beträgt in 5,4 Jahren 3,7%  (die Differenz der beiden Gruppen),  
     im Jahr also 0,68%.  
2. Das Risiko liegt unbehandelt um 42,5% höher  (relativer Nutzen auf Verum bezogen)  
3.   Das Risiko ist behandelt um 29.8%  geringer  (relativer Nutzen bezogen auf Placebo)  
4.   NNT (number needed to treat) = 147 p.a.  (Es müssen 147 Patienten ein Jahr behandelt  
     werden, damit einer einen Nutzen hat. 

Der relative Nutzen (Aussage 2 oder gar 3) klingt natürlich viel eindrucksvoller als eine ehrliche Nutzendarstellung, ist aber fast schon unredlich. Es lohnt sich also immer, auf den absoluten Nutzen zu schauen, oder die NNT zu berechnen. Hier ein paar Beispiele: 

Studie FIT 
(Fracture Intervention Trial - Teilnehmer 9300)  

Zahl der Frakturenin 3 Jahren
unter Placebo   3,90%
unter Biphosphonat   2,80%
relativer Nutzen 28,21%
absoluter Nutzen in 3 Jahren   1,10%
absoluter Nutzen pro Jahr   0,36%
NNT p.a. (Number needed to treat)   278

                               Studie 4S 
                                (Skandinavian Simvastatin Survival Study -  Teilnehmer 4444)  
 


Gesamtsterblichkeitin 5,4 Jahren
unter Placebo  12,40%
unter Simvastatin   8,70%
relativer Nutzen  29,80%
absoluter Nutzen in 5,4 J.   3,70%
absoluter Nutzen pro Jahr   0,68%
NNT p.a.   147

                                                           Studie HOPE 
                                                            (Heart Outcomes Prevention Evaluation - Teilnehmer 9541)  


Gesamtsterblichkeitin 5 Jahren
unter Placebo  12,20%
unter Ramipril  10,30%
relativer Nutzen  15,50%
absoluter Nutzen in 5 Jahren    1,90%
absoluter Nutzen pro Jahr    0,38%
NNT p.a.   263
Und ein weiterer Blick auf die Irrtumswahrscheinlichkeit und Nebenwirkungsrate kann nicht schaden. 0,6% Nutzen bei 2% Nebenwirkungsrate und 1% Irrtumswahrscheinlichkeit ist nicht sonderlich überzeugend. 

Wie bewertet man den Nutzen?  
Sicher erwartet jeder Patient von seiner Behandlung etwas anderes. Der eine möchte seine Schmerzen los werden, der andere will nur gewisse, oft an die Wand gemalte, Risikofaktoren vermindern, ein anderer wiederum seine Lebenserwartung erhöhen. Irgend einen Endpunkt muss jede Studie zur Bewertung des Nutzens festlegen. Das kann bei Herzinfarkt-Patienten der Re-Infarkt sein. Aber was nützt es, die Zahl der Infarkte zu verringern, wenn gleichzeitig die Zahl der Schlaganfälle zunimmt? Und was interessiert den 60jährigen, der seine Angina pectoris beim Treppensteigen los sein will, ob er am Ende 82 oder 82 ½ Jahre alt werden darf. Und die Veränderung irgendwelcher Messparameter, z.B. des Blutdrucks, sagt für sich allein nicht viel. Darum nimmt man zunehmend als „harten Endpunkt“ die Sterblichkeit. Nun kann kein Medikament die Sterblichkeit senken, unser Globus wäre schnell überfüllt. Also nimmt man die Sterblichkeit in einem bestimmten Zeitraum, z.B. 5 Jahre. Wird ein anderer, zudem noch „krummer“ Zeitrahmen gewählt, ist Misstrauen angesagt. Könnte es sein, dass danach ein anfänglicher Vorteil im Nichts zerrann? 

Um auf jeden Fall fündig zu werden, kann man auch mehrere Erfolgskriterien zum Maßstab machen. Wer fleißig sucht, findet auch mehr. Aber da jedem dieser Endpunkte die 5%ige Irrtumswahrscheinlichkeit innewohnt, ist jede Aussage nur zu 95% Wahrscheinlichkeit wahr. Bei drei Zielparametern sinkt also die Richtigkeitswahrscheinlichkeit auf 0,95 x 0,95 x 0,95 = 0,86 = 86%. 

Soll wirklich die Gesamtsterblichkeit in einem bestimmten Zeitraum zum Kriterium werden, kommt es natürlich auf eine wirklich gleichmäßige Verteilung der Risikopatienten auf Verum- und Placebo-Gruppe an, ebenso auf die Altersverteilung. Bestimmte Kontraindikationen als Ausschlusskriterium nur auf die Verumgruppe anzuwenden, führt logischerweise zu einem Vorteil für diese Gruppe. So geschehen bei einer großen Studie über den angeblichen Nutzen einer Östrogensubstitution für den Kreislauf. 

Randomisierung 
Um Manipulationen auszuschließen erfolgt die Verteilung auf beide Gruppen randomisiert, also nach einem Zufallsverfahren. Manche nehmen – ganz zufällig – den Geburtsmonat. Aber sind wir – auch ohne Astrologie - sicher, dass der Mai-geborene nicht ganz andere Voraussetzungen mitbringt als das Christkind’l? Oder der ebenso zufällige Anfangsbuchstabe des Namens? Da finden sich türkische Mitbürger gehäuft in der XY-Gruppe wieder. Also würfeln wir, oder bedienen den Zufallsgenerator des Computers – ganz objektiv, aber ebenso fehlerbehaftet. Probieren Sie’s selbst: machen Sie 60 Würfe mit einem Würfel und schauen Sie ob jede Zahl wirklich genau zehnmal kam. 

Gibt es also in der Sterblichkeit signifikante Unterschiede, lohnt es sich, die Alters- oder Risikoverteilung im Detail unter die Lupe zu nehmen. Hat der Zufall mehr Ältere in die Placebogruppe gespült oder mehr Mehrfachrisikopatienten, dann wird dort auch die Sterblichkeit größer sein. Und schließlich: wer aus der Verum-Gruppe drei Tage nach dem Enddatum von Gevatter Hein geholt wird, hat dennoch zum Nutzenbeleg beigetragen. Bei der oben zitierten Studie würde es schon genügen, dass die Placebo-Probanden im Mittel um 21 Tage älter waren, um den 0,6%igen Nutzen p.a. auszulösen. Nach folgendem Muster errechnet: durchschnittliche zu erwartende Rest-Lebenszeit bis zur statistischen Lebenserwartung =120 Monate, davon 0,6% = 21 Tage. 

Neben den von Gevatter Hein aus einer Studie abberufenen Probanden fallen etliche Teilnehmer aus weil sie umziehen, auswandern oder einfach die Lust verlieren, oft wegen unangenehmer Nebenwirkungen. "Drop out" nennt man das. Und es lohnt sich, sehr genau hinzusehen, wie denn dieses "drop out" in die Statistik eingegangen ist. 

Abgebrochen 
Es gibt Abbrüche, die gelten als ausgesprochen unethisch. Manche Studie wird auch vorzeitig abgebrochen – aus ethischen Gründen. Wenn sich schon auf halbem Weg zeigt, dass die Patienten vom neuen Medikament deutlich mehr profitieren, als vom alten Vergleichsprodukt oder vom Placebo, mit dem verglichen wird, dann gilt es als unethisch, nicht alle an diesem Nutzen teilhaben zu lassen. Aber auch hier ist kritische Aufmerksamkeit geboten. Wenn sich zeigt, dass ein anfänglicher Nutzen langsam dahin schmilzt und sich die Schere der beiden Kurven womöglich in die andere Richtung öffnet, ist die Versuchung groß, einen Abbruch ethisch zu begründen. Das ist so, als wenn ein Pferderennen im Schlussbogen abgebrochen wird, weil der Favorit dort gerade vorn lag. Es besteht keine Gefahr mehr, dass er bis zum Ziel „nach hinten durchgereicht wird“. 

Multizentrisch 
Studien leben von der großen Zahl der Probanden. Je kleiner die Zahl, desto größer die Irrtumswahrscheinlichkeit, desto unglaubwürdiger das Ergebnis, desto weniger Verordner. Nun gibt es aber nicht von jeder Krankheit gleich zigtausend Patienten, die sich zum Versuchskaninchen machen lassen, und schon gar nicht an einer einzigen Klinik. Um große Zahlen zusammen zu bringen, muss man also über einen langen Zeitraum behandeln und beobachten, aber das neue Medikament soll ja schnell auf den Markt, ehe die Konkurrenz ein noch besseres bringt. Außerdem ändern sich die Diagnostik und viele andere Faktoren im Laufe der Jahre. Krebszahlen und Therapieergebnisse von 1990 mit 2004 vergleichen zu wollen ist Unsinn. Allerdings auch jener auf unseren Kongressen gern zitierte Vergleich des Vitamin- und Mineralgehaltes gängiger Lebensmittel aus 1980 und von heute. 

Wenn nicht der Zeitraum die Zahl der Probanden vermehren kann, dann macht vielleicht die multizentrische Studie Sinn, die eigentlich schon sprachlicher Unsinn ist, denn ein Zentrum kann es eben nur einmal geben. Man prüft an mehreren Kliniken oder lässt viele Ärzte prüfen. Das Problem der multizentrischen Studie liegt ganz woanders. Rechnen Sie mit: 

Die Kliniken A und B vergleichen – mit unterschiedlichem Eifer – das Medikament NEURIN gegenüber dem alten bewährten ALTOL. Klinikchef A hält mehr vom altbewährten, Chef B stürzt sich enthusiastisch auf das neue. In beiden Kliniken entpuppt sich aber NEURIN als weniger wirksam, in Klinik A mit 71% statt 77%, in Klinik B mit 85% statt 91% der Behandelten.  
  

Klinik A
NEURIN Prozent ALTOL
behandelt140100%1300100%
Erfolg100  71%1000  77%
Mißerfolg  40  29%  300  23%

  


KlinikB
NEURIN ProzentALTOL Prozent
behandelt1300 100%  110 100%
Erfolg1100   85%  100   91%
Mißerfolg  200   15%    10     9%
Der Produktmanager vom NEURIN-Hersteller kennt sich aber mit Statistik aus. Er  
macht aus beiden nicht so berauschenden Studien einfach eine multizentrische  
Studie, indem er die Zahlen beider Kliniken in einen Topf wirft. 

                             multizentrisch 
 


KlinikA+B
NEURINProzent ALTOL Prozent
behandelt1440 100%1410 100%
Erfolg1200    83%1100   78%
Mißerfolg  240   17%  310    22%

Oh Wunder der Mathematik: Mit einem Mal schneidet NEURIN mit 83% statt  
78% für ALTOL besser ab. Der Verkaufserfolg ist gesichert. 

Ähnlich lässt sich mit der Verschiebung von einer Gruppe in die andere tricksen.  
Der blöde Blondinenwitz „Was passiert, wenn eine Blondine von Deutschland  
nach Österreich auswandert? – In beiden Ländern steigt das durchschnittliche Intelligenzniveau.“ muss von Mathematikern erdacht sein. Ich mag Österreich und Blonde und zitiere ihn nur um der Bildhaftigkeit willen, obwohl ich ihn für geschmacklos halte. Ich mach’s drüber hinaus an einem therapeutischen Beispiel deutlich: 

Ein neues Medikament gegen die Anämie wird getestet, erweist sich aber als Flop. Bei allen Probanden ist der Hb-Spiegel nicht etwa gestiegen, sondern um 0,2 g% gesunken. Nun könnte es ja sein, dass es bei schwerer Anämie mehr bringt, als bei einer leichten. Die Patienten werden in zwei Gruppen geteilt, Hb über 10g% und Hb unter 10 g%. 

Hier die Laborbefunde:  
Gruppe 1 vor Behandlung: 14,5 - 14,2 - 13,3 - 10,1 =  Mittelwert 13,03  
Gruppe 2 vor Behandlung:   9,9 -   9,2 -   8,3 -   8,2 =  Mittelwert   8,90 

Nach der Behandlung liegen alle Werte um 0,2 g% schlechter. Dadurch rutscht der 4. Patient von Gruppe 1 in Gruppe 2:  
Gruppe 1 nach Behandlung: 14,3 - 14,0 - 13,1                     = Mittelwert 13,80  
Gruppe 2 nach Behandlung:   9,9 –   9,7 –  9,0 –  8,1 – 8,0 = Mittelwert    8,94 

Wer sagt’s denn? In beiden Gruppen ist dank des hervorragenden neuen Medikamentes der Mittelwert signifikant gestiegen. 

Von Interpreten 
Heute tritt im Fernsehen kein schlichter Sänger mehr auf, sondern ein Interpret. Aus der Idee des Komponisten macht er mit seiner Stimme, seinem Auftreten, seiner Gestaltungskunst etwas völlig neues. Leider ist das auch so, wenn eine Fachzeitung nicht eine Studie selbst wiedergibt, sondern darüber berichtet. Oft beschreibt dieser Bericht auch nur das, was der Interpret selbst als Bericht über einen Bericht in anderen Zeitungen oder als Zusammenfassung in Datenbanken gefunden hat. Der Weg zur Originalarbeit steht den wenigsten offen. Kennen Sie noch das Kinderspiel "Stille Post" ? Hans flüstert seinem linken Nachbarn etwas ins Ohr, der das Gehörte wiederum seinem Nachbarn und so fort. Abenteuerlich, was am Ende der Runde herauskommt. Und ebenso geht es der Schlußfolgerung aus einer wissenschaftlichen Studie nur allzu oft. Aus "Lässt den Schluss zu, dass......" wird häufig "Beweist, dass......."  Wenn Sie ernsthafte therapeutische Konsequenzen aus Studien ziehen wollen, dann schauen Sie sich kritisch die Originalarbeiten an. 

Zum Schluß für Freunde der Mathematik 
Die Berechnung der Zufallswahrscheinlichkeit (siehe oben) läßt sich mit dem Vierfeldertest berechnen. 

A = Verum mit Erfolg, B = Verum ohne Erfolg  
C = Placebo mit Erfolg, D = Placebo ohne Erfolg  
N = Summe aller Teilnehmer 

Die Formel lautet: 

           (N -1) * (A * D - C * B)2  
R =    ------------------------------------  
           (A + C) * (B + D) * (A + B) * (C + D) 

Je größer R ist, desto geringer ist die Wahrscheinlichkeit, dass es sich um ein Zufallsergebnis handelt. Um einer 5%igen Signifikanz (p<0,05) zu entsprechen, muß R mindestens 3,84 oder größer sein. Um einer Signifikanz von 1% (hoch signifikant, p<0,01) zu entsprechen, muß R größer oder gleich 6,64 sein. Die Zahlen lassen sich jedem Lehrbuch der Statistik entnehmen. 

 

Wie man mit Stauchen, Strecken und Ausschneiden die Wirklichkeit verzerrt 
  
 



Zurück 
  
  
  
 

Wie ein hohes Konsumniveau zur Katastrophe wird 
  
  

Private Konsumausgaben über 13 JahreVeränderung in %