(...) Nach wissenschaftlicher Anschauung hat ein solcher Zuordnungstest dann ein signifikantes Ergebnis, wenn fünf von fünf Horoskopen hinsichtlich der Tageshälfte richtig zugeordnet werden (statistische Wahrscheinlichkeit ist hier 1 : 32).
Jain. Es ist zwar richtig, dass ein p-Wert kleiner als 0,05 in vielen medizinischen und psychologischen Studien als
statistisch signifikant gilt, aber das bedeutet auch, dass 5% aller entsprechenden Studien zu einem Nicht-Effekt falsch-positiv ausgehen. Unter anderem darum muss auch auf Reproduzierbarkeit so geachtet werden, auch wenn methodisch alles wasserdicht lief.
Diese 5% als Schwelle zur statistischen Signifikanz ist auch relativ pragmatisch gewählt, weil es Studien sehr groß aufblähen könnte/würde, wenn man die Hürde höher/strenger wählen würde. In der Physik ist man auch allgemein deutlich strenger und setzt das sog.
5-Sigma-Kriterium an; eine statistische Wahrscheinlichkeit unter der Nullhypothese in etwa der Größenordnung eines Lotto-Hauptgewinns.
Das wird man in Medizin/Psychologie nur sehr schwer mit extremem Aufwand hinbekommen. Das aber aler Erläuterung, dass die Hürde p<0,05 nicht allgemeingültig in Stein gemeißelt wissenschaftlich als Beweis gilt.
Zu Deinem Testdesign eine Frage: warum reduzierst Du die Angaben auf Vormittag vs. Nachmittag? Damit ergibt sich ganz grob eine Wahrcheinlichkeit von 1/2 pro Person, wobei es da wie hier schon erwähnt, keine absolute Gleichverteilung gibt, was die Wahrscheinlichkeiten etwas verzerrt. Wie wäre es, wenn der Astrologe neben dem echten Geburtsdatum eine Reihe von plausiblen aber falschen Daten genannt bekommt, und er das richtige herrausfinden muss? Damit hat man zum einen die Einzelwahrscheinlichkeiten etwas mehr im Griff ohne derartige Verzerrungen, und kann sie auch so wählen, dass statistische Signifikanz schneller erreicht wäre (sollte tatsächlich was dran sein).