L
Lincoln
Guest
Teil 1
Aus der Elektroinfo
Allgemeines
Sicher haben Sie schon einmal den Spruch "Glaube keiner Statistik, die Du nicht selbst gefälscht hast" gehört. Es soll zwar manchmal vorkommen, daß Statistiken wirklich gefälscht werden, aber die ganze Wahrheit ist noch viel erschreckender: Normalerweise braucht man eine Statistik noch nicht einmal zu fälschen, um zu konträren Ergebnissen zu kommen. Wie Statistiken erstellt werden und warum man ihnen selten relevante Informationen entnehmen kann, können Sie nachfolgend erfahren.
Statistiken
Statistikgrundlagen und grundlegende Probleme
Eine Statistik ist im Grunde nur eine Sammlung von Daten, die in einer bestimmten Art und Weise aufgearbeitet wurde. Statt einzelner Daten wird die Darstellung meistens dadurch komprimiert, daß man z.B. bestimmte Ereignisse in bestimmten Zeiträumen zusammenfaßt. Wenn man beispielsweise einen kleinen Laden betreibt und 10 unterschiedliche Produkte anbietet, kann man für jeden Monat die Zahlen zusammentragen, wie oft jedes dieser Produkte verkauft wurde. Wenn man dies in Form einer Zahlenreihe oder graphisch über einen größeren Zeitraum aufbereitet, hat man bereits eine Statistik erstellt.
Man erstellt eine Statistik jedoch nicht, um lediglich ein paar schöne Zahlen oder bunte Bildchen vorweisen zu können, sondern man will Erkenntnisse daraus gewinnen. Man könnte im Beispiel versuchen, das Produkt zu identifizieren, das sich am schlechtesten verkauft, um es aus dem Sortiment zu nehmen. Man könnte auf die Idee kommen, daß das Produkt mit den geringsten Verkaufszahlen das Produkt ist, das sich am schlechtesten verkauft. Diese Einschätzung kann korrekt sein, aber es kann auch sein, daß der Lieferant nur geringe Stückzahlen liefern konnte und man viel höhere Stückzahlen hätte verkaufen können, wenn es nur lieferbar gewesen wäre. Den nackten Verkaufszahlen kann man diese wichtige Information leider nicht entnehmen.
Der Ladeninhaber wird ganz sicher nicht auf die Idee kommen, das im Grunde sehr gut verkäufliche Produkt mit den geringen Verkaufszahlen aus dem Sortiment zu nehmen, sondern vielmehr Druck auf seinen Lieferanten ausüben, damit er ihm mehr davon liefert. Denn der Inhaber eines Ein-Mann-Ladens kennt die ganze Wahrheit und vertraut nicht reinen Zahlen. Wenn bei einem größeren Laden der Inhaber sich allerdings nicht mit allen Details beschäftigt, sondern Mitarbeiter mit dem Tagesgeschäft betraut, die ihm regelmäßig Statistiken als Rückmeldung zur Entscheidungsfindung liefern, könnte er sehr schnell eine falsche Entscheidung treffen, wenn er alleine die Statistiken zur Entscheidungsfindung heranzieht.
Es ist deshalb extrem wichtig, die Datenbasis so zu wählen, daß man aus der daraus erstellten Statistik die richtigen Schlüsse ziehen kann. Wenn man wissen will, welche Produkte sich besonders gut verkaufen, reicht es nicht aus, als Datenbasis einfach nur die Menge der verkauften Produkte pro Monat aufzulisten. In diesem Fall würde es sich z.B. anbieten, als Datenbasis zusätzlich die Zeit heranzuziehen, wie lange die Produkte im Lager liegen. Bei gut verkäuflichen Produkten würde man üblicherweise sehen, daß die Lagerzeit sehr kurz ist. Aber auch dies kann unter bestimmten Bedingungen trügerisch sein: Wenn man z.B. eine sehr große Menge an gut verkäuflichen Produkten eingekauft hat (beispielsweise einen Sonderposten zu günstigen Konditionen), kann man diese in der Regel nicht sofort verkaufen, sondern benötigt dazu einige Zeit.
Sie sehen, schon bei solch einfachen Dingen kann man aus einer Statistik völlig falsche Schlüsse ziehen, wenn man sich nur die Zahlen anschaut. Wenn Sie Statistiken nutzbringend einsetzen wollen, sollten Sie daher besondere Vorsicht walten lassen und Entscheidungen nie ausschließlich auf dieser Basis treffen.
Studien / doppelter Blindversuch
Vor allem in der Medizin führt man oft sogenannte Studien durch, in denen man den Einfluß bzw. die Wirksamkeit bestimmter Substanzen, Verfahren etc. auf den Menschen untersucht. Hierzu zählen auch klinische Tests. Wenn man einfach hingeht, kranken Menschen einen Wirkstoff verabreicht und nach einem gewissen Zeitraum nachschaut, ob die Behandlung erfolgreich war, hat man so ziemlich alle Fehler gemacht, die man machen kann. Das Ergebnis hat dann nahezu die gleiche Qualität, wie wenn man zur Ermittlung der Zahlen einen Würfel bemühen würde.
Menschen sind nämlich keine Maschinen, sondern reagieren zusätzlich zu Wirkstoffen auch auf die Umgebung und insbesondere auf psychologische Dinge. Der behandelnde Arzt hat daher durch sein Verhalten großen Einfluß auf den Heilungsprozeß. Weiterhin gibt es den Placebo-Effekt (ein Placebo ist im medizinischen Sprachgebrauch eine wirkstofffreie Kopie eines Medikaments): Alleine das Wissen um eine (scheinbare) Behandlung mit einem Medikament heilt wundersamerweise einen Teil kranker Menschen, was ja die Homöopathie beweist. Dieser Anteil ist natürlich abhängig von der Erkrankung; bei AIDS ist eine Heilung durch ein Placebo eher unwahrscheinlich, bei Befindlichkeitsstörungen wie z.B. einem empfindlichen Magen ist der Placebo-Effekt allerdings sehr hoch. Desweiteren muß man berücksichtigen, daß etliche Krankheiten von selbst heilen. Man denke nur an Erkältungskrankheiten.
Aus diesem Grund hat sich als Standard für Studien der sogenannte doppelte Blindversuch durchgesetzt, gern auch doppelter Blindtest genannt. Hierbei teilt man die Personen, die an der Studie teilnehmen, ohne deren Wissen in zwei Gruppen auf. Eine Gruppe erhält den zu untersuchenden Wirkstoff, die andere ein Placebo. Der behandelnde Arzt weiß ebenfalls nicht, ob er den Wirkstoff anwendet oder das Placebo, um eine psychologische Beeinflussung des Patienten zu vermeiden. Er weiß nur, daß er die Versuchspersonen mit dem ihm zugeordneten Medikament behandeln soll. Lediglich der Versuchsleiter weiß, welche Versuchsperson den Wirkstoff und welche ein Placebo erhält. Weil sowohl der Proband als auch der behandelnde Arzt nicht wissen, ob ein Wirkstoff oder ein Placebo verabreicht wird, bezeichnet man diese Vorgehensweise als doppelten Blindversuch bzw. als doppelten Blindtest. Als einfachen Blindversuch bzw. einfachen Blindtest bezeichnet man eine Untersuchung, bei der lediglich der Proband über den Wirkstoff im Unklaren gelassen wird.
Nach einem definierten Testzeitraum schaut man sich dann jeweils an, wieviele Personen in den beiden Gruppen gesundet sind. Wenn in der Gruppe, die den Wirkstoff erhielt, alle Personen gesundet sind, heißt das noch lange nicht, daß der zu untersuchende Wirkstoff tatsächlich wirksam ist. Denn wenn in der Kontrollgruppe, die den Placebo erhielt, ebenfalls alle Probanden gesundet sind, ist der Wirkstoff nutzlos. Aus diesem Grund vergleicht man den Prozentsatz der gesundeten Probanden in beiden Gruppen miteinander. Der zu untersuchende Wirkstoff wird nur dann als wirksam angesehen, wenn bei seiner Anwendung deutlich mehr Personen gesunden als durch Anwendung eines Placebos. Wichtig ist dabei, daß die Anzahl der Probanden hoch genug ist, damit zufällige Ereignisse das Ergebnis nicht zu stark verfälschen. Testgruppen mit beispielsweise nur 10 Personen haben keinerlei Aussagekraft. Andererseits ist es wichtig, daß die Probanden rein zufällig (z.B. durch Würfel) und nicht etwa durch manuelle Auswahl auf eine der beiden Gruppen aufgeteilt werden. Denn wenn sich in einer Gruppe nur "Pferdenaturen" befinden und in der anderen schwächelnde Personen, verfälscht dies das Ergebnis sehr stark.
Der doppelte Blindversuch ist nicht nur in der Medizin ein zwingendes Muß für Untersuchungen des Einflußes von Stoffen oder Reizen auf den Menschen, sondern ist ein gängiger Standard. Wenn man darauf verzichtet, muß man sich über falsche Ergebnisse nicht wundern. Wie leicht sich Menschen beeinflussen lassen, sieht man bei HiFi-Anlagen, denn nicht selten behaupten Leute, sie seien in der Lage, teure von billigen CD-Spielern (z.B. 5000- gegen 200-Euro-Klasse) problemlos zu unterscheiden.
Wenn sie Sichtkontakt zur Musikanlage haben und man ihnen den Umschalter in die Hand gibt, werden sie dazu auch in der Lage sein. Aber das wäre auch ein Gehörloser, weil er ja als Bediener des Umschalters weiß, welcher CD-Spieler gerade die Musik liefert. Man kann sich, und das ist ein typischer menschlicher Wesenszug, nicht der Vorstellung entziehen, daß der teure und edel aussehende CD-Spieler mit seiner massiven Edelstahlfrontplatte viel besser klingen muß als das billige, häßliche Kästchen mit seinen klapprigen Bedienelementen. Wenn er aber garnicht weiß, welche Geräte überhaupt verwendet werden, weil er sie nicht sehen kann, und wenn nicht er sondern jemand anders (der auch nicht weiß, welche Geräte bei einer bestimmten Schalterstellung auf den Ausgang geschaltet werden) den Umschalter betätigt, geht die Trefferrate stark in den Keller. Sie wird übrigens statistisch gesehen nicht Null, denn bei Verwendung von 2 Geräten beträgt die Trefferrate im statistischen Mittel ohnehin 50%. Wenn man garnicht hinhört und immer nur eine Münze wirft, erreicht man genau diese 50% Trefferrate. Bei parallel untersuchten 3 Geräten liegt sie bei 33%, bei 4 Geräten bei 25% usw.
Ein korrekt durchgeführter doppelter Blindversuch läuft grob gesehen folgendermaßen ab: Der Versuchsdurchführer, der den Umschalter bedient, schaltet zuerst auf Anweisung des Probanden zwischen den Geräten um, damit sich dieser mit deren Klang vertraut machen kann. Beiden Personen bekannt ist zu diesem Zeitpunkt nur die Schalterstellung, nicht aber welche Geräte sich dahinter verbergen. Dann beginnt der eigentliche Test. Der Versuchsdurchführer schaltet viele Male nach einem vom Versuchsleiter vorgegebenen Schema zwischen den zu untersuchenden Geräten hin und her, ohne die Schalterstellung dem Probanden zu verraten und notiert die vom Probanden genannten Ergebnisse. Wichtig dabei ist, daß der Proband nicht aufgrund von Lautstärkeunterschieden, Zeitversatz der Musikwiedergabe zwischen den beiden CD-Spielern o.ä. Rückschlüsse auf das Gerät ziehen kann. Danach wird ausgewertet.
Wichtig ist, daß die Anzahl der Hörproben nicht zu gering ist, um die statistische Ungenauigkeit gering zu halten. Wenn beispielsweise der Versuchdurchführer nach dem vom Versuchsleiter vorgegebenen Schema wild durcheinandergewürfelt (also nicht nur Gerät 1, 2, 1, 2 usw.!) jeweils 5 Hörproben von zwei Geräten präsentiert hat, ist die statistische Ungenauigkeit relativ hoch. Bei diesen in Summe 10 Hörproben liegt sie bei 10%, weil es bei 10 Versuchen nur Trefferraten in 10%-Schritten gibt. 1 Treffer bei 10 Versuchen bedeutet eine Trefferrate von 10%, 2 Treffer bei 10 Versuchen eine Trefferrate von 20% usw. Jede einzelne Hörprobe hat daher relativ großen Einfluß auf das Ergebnis. Denn wer bei 9 Hörproben 5 Treffer erzielt hat, was einer Trefferrate von 55% entspricht, kann bei der zehnten Hörprobe entweder einen weiteren Treffer landen (d.h. 6 Treffer bei 10 Hörproben, was 60% ergibt) oder den zehnten Versuch vergeigen (d.h. 5 Treffer bei 10 Hörproben, was 50% ergibt).
Daher ist es wichtig, daß die Anzahl der Hörproben so hoch gewählt wird, daß die statistische Ungenauigkeit nicht das Ergebnis bestimmt. Im obigen Beispiel liegt der Proband sehr dicht an dem Wert, den man durch Werfen einer Münze erreicht (d.h. 50%). Eine Trefferrate von 60% bei einer Ungenauigkeit von 10% bedeutet schlicht, daß er die Geräte nicht zuordnen konnte. Bei 100 Hörproben und 60 Treffern ergibt sich ebenfalls eine Trefferrate von 60%. Hier liegt die statistische Ungenauigkeit aber nur bei 1%, so daß man hier die Aussage treffen kann, daß der Proband in seltenen Fällen Abweichungen gehört hat. Wer behauptet, Geräte einigermaßen sicher am Klang identifizieren zu können, muß Trefferraten deutlich oberhalb von 80% erreichen.
Eines sollte man bei aller Statistik im Hinterkopf behalten: Statistik ist immer nur ein Durchschnitt. Es kann im Einzelfall starke Ausreißer nach oben oder unten geben. Im Beispiel mit dem CD-Spieler könnte auch ein Gehörloser bei 100 Hörproben immer die richtige Antwort geben. Die Wahrscheinlichkeit (nähere Infos siehe Lotto), daß er bei einem einzigen Hörversuch und 2 Geräten richtig tippt, liegt bei 50%. Bei zwei Versuchen sind es 25%, bei drei Versuchen 12,5% usw. Bei 10 Versuchen liegt die Wahrscheinlichkeit, alle Antworten durch bloßen Tippen richtig gegeben zu haben, bei ca. 0,1%. Bei 100 Versuchen ist zwar die Zahl sehr klein (sie hat dannn 28 Nullen hinter dem Komma), aber die Wahrscheinlichkeit ist nicht Null.
Wenn man nicht 100% korrekte Antworten als Kriterium heranzieht, sondern sich mit 70% richtigen Antworten zufrieden gibt, kommt man durch bloßes Tippen statt Hören bei 10 Hörproben auf eine Wahrscheinlichkeit von 1,6% und bei 100 Hörproben auf eine Zahl, die "nur noch" 19 Nullen hinter dem Komma hat (bei 100% waren es immerhin noch 28 Nullen). Im Klartext heißt das, daß bei jeweils 10 Hörproben pro Versuchsdurchgang in 1,6% der Durchgänge 70% Trefferwahrscheinlichkeit erreicht werden, obwohl der Probant nachgewiesenermaßen überhaupt keinen Unterschied hören kann.
Aus der Elektroinfo