Hallo,
also, wie geht es weiter:
Wenn ich die Zeit für reif halte, werde ich zwei bis drei Fotos machen: Eins von den 6 Gläsern der Kontrollgruppe, und ein bis zwei von den 12 Gläsern, die ich mit Sympathie bzw. Antipathie behandelt habe. Die letzteren werde ich "durcheinanderwürfeln", und es wird auf dem Bild auch nicht erkennbar sein, welches Gläschen wie behandelt wurde.
Ich werde dann bitten mir PN zukommen zu lassen, wo der Teilnehmer schreibt, welches Glas "viel Schimmel" oder "schlechten Schimmel" oder so ähnlich hat. Das ist also sowas wie eine Abstimmung, wo jeder genau 6 Stimmen hat.
Für jeden werde ich kontrollieren, wie oft er richtig liegt.
Nun folgt ein wenig Mathematik, aber sie ist nicht allzu schwer:
Sollte kein Effekt da sein, folgt diese Umfrage mehr oder weniger deum Zufall. Bei solchen Statistik-Experimenten muss nun von "zufälligem Treffer" und echtem Effekt unterschieden werden.
Die Wahrscheinlichkeitet P(N) für N Treffer bei zufälligem Tippen ist:
N P(N)
0 1/924
1 36/924
2 225/924
3 400/924
4 225/924
5 36/924
6 1/924
(kann ein mathematisch versierter Leser vielleicht auch mal überprüfen und nachrechnen).
Der Mittelwert dieser Verteilung ist 3, d.h. die durchschnittliche Trefferquote sollte im Falle der sog. Nullhypothese (kein Phänomen) bei 3 liegen. Ist die Trefferdurchschnitt signifikant besser, liegt ein Effekt nahe. Ich rede hier
nicht von "das Phänomen wäre bestätigt/bewiesen"; warum, erkläre ich weiter unten.
Was heißt "signifikant besser". Je nachdem, wie viele Stimmen eingehen, kann man auch für jeden möglichen Mittelwert eine Wahrschinlichkeit unter der Nullhypothese ausrechnen. Liegt die Wahrscheinlichkeit für die Aussage: "die durchschnittliche Trefferquote bei der Nullhypothese ist gleich der gemessenen oder besser." kleiner als 0.001, sehe ich das als Bestätigung. Dieses Konfidenzniveau habe ich jetzt festgesetzt.
Erreicht wird das z.B. unter anderem wenn ich zwei Stimmen erhalte mit 6 Treffern (d.h. keinem Fehler) und keine weiteren Stimmen.
VORSICHT!!!:
Sollte das Phänomen nicht überdeutlich sein, aber das Experiment dennoch ein signifikantes Ergebnis liefern, bleibt das Experiment angreifbar. Es wurde und wird keine Untergrundmessung (d.h. ein Durchlauf für die Nullhypothese) gemacht. Das heißt Effekte, die die Nullhypothese von der reinen Zufälligkeit unterscheiden (z.B. psychologische Effekte, gerne immer das zweite Glas zu wählen oder sowas ähnliches) werden nicht berücksichtigt. Ich vergleiche mit theoretischen Erwartungen, nicht mit realen Messungen. Für den ersten Durchlauf des Versuches halte ich das für tollerierbar. Aber sollte es hier ein positives Ergebnis geben, muss der Versuch mit viel mehr Aufwand wiederholt werden (war mir für's erste Mal zuviel).
Potentielle Fehlerquellen:
Fehler erster Art (positives Ergebnis ohne wirkliches Phänomen):
- Mögliche falsche Annahmen über die Nullhypothese (wie oben beschrieben). Es wurden schon Fachartikel zurückgezogen und Physiker entlassen, weil die so voreilig veröffentlicht haben. Für den ersten Durchlauf ist es ok, für eine Veröffentlichung aber nicht.
- Andere nicht berücksichtigte Effekte beim Abfüllen und Präparieren des Reis (mir fallen keine ein, aber vielleicht einem kritischen Leser)
Fehler zweiter Art (negatives Ergebnis mit wirklichem Phänomen):
- Zuwenig Statistik. Sollte das der Fall sein, ist der Effekt kleiner als erwartet)
- Unehrliche Abstimmung. Ich werde jede Stimme ernst nehmen, es sei denn ich habe einen Grund einer Stimme nicht zu glauben. Wenn jemand absichtlich falsch tippen wird, geht das negativ in den Mittelwert ein.
- Falsche Behandlung. Es ist ziemlich schwer, Reishäufchen Gefühle entgegen zu bringen.
In diesem Sinne... ich bin gespannt, was rauskommen wird.
Viele Grüße
Joey