So, nun will ich mich doch mal hier reinklinken, obwohl ich ja andernorts mal versprochen habe, in gewisse Unterforen nicht rein zu schreiben, weil mir gesagt wurde, eine wissenschaftliche Sicht wäre da (bzw. sogar im Forum allgemein) unerwünscht.
Aber nun gut, jetztg, wo hier Paper hervorgekramt werden und fundierte Statistik-Kenntnisse erwünscht werden - die habe ich - werde ich hier mal etwas dazu schreiben.
Ich habe schon seit einigen Tagen hier mitgelesen, und es hat immer wieder mal in den Fingern gejuckt...
Also: Ich habe das Paper gelesen. Es gibt einige Dinge, die mir da positiv aufgefallen sind:
Der Verfasser reitet nicht nur auf dem p-Wert rum, sondern betrachtet auch die Effektgröße. Ich werde weiter unten auch erklären, warum der p-Wert alleine seine Tücken hat.
Das sind ALLES Studien-Designs, die ich in ähnlichen Diskussionen der Vergangenheit schon selbst hier skizzenhaft vorgestellt habe, wo allerdings mir von Anhängern der Astrologie immer wortreich erklärt wurde, warum das nie und nimmer so klappen könnte.
Der Autor des Papers erwähnt stichworthaft einige methodische Feinheiten bzw. Fallstricke - Verblindung, p-Hacking, Cherrypicking etc. pp. - breitet diese Erklärungen aber nicht stark aus. Dabei betreibt er allerdings selbst Cherry-Picking, in dem er einige positive Studien ausführlich beschreibt, die Kritik an diesen Studien und negativ verlaufene Reproduktions-Versuche aber bestenfalls nur mit einem der Stichworte und einer Quellenangabe anreißt.
Da Du "fundierte Statistikk-Kenntnisse" erwünscht hast, will ich in weiteren Erläuterungen auch aufzeigen, dass Deine Erläuterungen der statistischen Angaben hier fehlerhaft ist:
Der p-Wert - die statistische Signifikanz - gibt die Wahrscheinlichkeit an, dass das gefundene Ergebnis (einschließlich aller "besseren" Ergebnis-Möglichkeiten) im Rahmen der Nullhypothese beobachtet werden würde. Das bedeutet anschaulich erklärt: Wenn wir 100 Versuche machen, die einen Nicht-Effekt untersuchen, werden im Schnitt 5 davon ein falsch-positives Ergebnis haben, indem der p-Wert ihres Ergebnisses unter den besagten 5% liegt.
Das ist NICHT gleichbedeutend, dass das Studien-Ergebnis mit 95%-Wahrscheinlichkeit richtig wäre. Das ist die Tücke des p-Wertes - mindestens, wenn man ihn alleine betrachtet und als einzige Messlatte zwischen beleg/nicht-beleg behandelt.
Zur Veranschaulichung der Tücke, und warum das nicht gleichbedeutend mit "zu 95% wahr" ist, ein Gedanken-Experiment:
Stellen wir uns zwei Urnen vor. In Urne A sind 100 Zettelchen mit Behauptungen, von denen 20 wahr sind. In Urne B sind 100 Zettelchen mit Behauptungen, von denen 80 wahr sind. Nun wird zu jeder dieser Behauptungen eine (statistische) Studie erstellt. Für alle wahren Behauptungen nehmen wir mal an, dass diese zuverlässig entdeckt werden, bei allen falschen behauptungen gibt es die durch die p-Wert-Grenze gegebene Wahrscheinlichkeit eines falsch-positiven Ergebnisses von 5%.
In Urne A werden also alle 20 wahren Behauptungen auch als wahr bestätigt, und von den 80 falschen Behauptungen bekommen 4 ein falsch-positives Ergebnis. Bei den insgesamt 24 Studien mit einem positiven Ergebnis ist die Wahrscheinlichkeit, dass das Ergebnis richtig ist, also nicht 19/20 (95%), sondern nur 5/6 (etwa 83%).
In Urne B werden alle 80 wahren Behauptungen bestätigt, und von den 20 falschen Behauptungen bekommt eine ein falsch-positives Ergebnis. Von den 81 Studien mit positivem Ergebnis ist die Wahrscheinlichkeit, dass dieses richtig ist, nicht nur 95%, sondern sogar 80/81 (knapp 99%).
Um die Wahrscheinlichkeit zu ermitteln, dass ein gegebenes (positives) Ergebnis wirklich wahr ist, brauchen wir nicht nur den p-Wert, wird müssten auch eine a-priori-Wahrscheinlichkeit wissen, die wir nicht kennen. Wenn wir diese a-priori-Wahrscheinlichkeit kennen würden, könnten wir das Endergebnis, also die Wahrscheinlichkeit, dass das positive Ergebnis wirklich richtig ist, mit dem p-Wert und der a-priori-Wahrscheinlichkeit zusammen über Bayes Theorem (mein Liebliengs-Theorem aus der statistischen Mathematik) ermitteln.
Da wir diese a-priori-Wahrscheinlichkeit aber nicht kennen - bestenfalls könnten wir versuchen, sie über die Plausibilität der Behauptung etwas abzuschätzen - können wir nur den p-Wert als Messlatte benutzen, ob ein Ergebnis statistisch signifikant ist oder nicht.
Das Problem ist nicht nur in den sog. Grenzbereichen der Wissenschaften gegeben, sondern ist eine allgegenwärige Mahnung im allgemeinen Forschungsbetrieb.
Man könnte jetzt auch fragen, warum man die Grenze zur statistischen Signifikanz so locker wählt und nur fordert, dass der p-Wert unter 5% liegt. In der Physik ist die Grenze da sehr viel strenger; da gilt das sog 5-Sigma-Kriterium, was einem p-Wert entspricht, der noch unwahrscheinlicher ist als ein Lotto-Hauptgewinn. Die Antwort ist ganz einfach, dass mit den Stichproben-Größen, mit denen in Medizin und Sozial-Wissenschaften gearbeitet wird, eine solche statistische Signifikant nicht erreichbar ist oder nur nach sehr sehr langwierigen Studien.
Was folgt daraus? Um dem zu begegnen, gibt es mehrere wichtige Ansätze, die Fehlschlüsse reduzieren und schlussendlich doch auch wieder aussortieren. Zum einen: Man betrachtet nunmal nicht nur den p-Wert sondern suche auch zusätzlich auf weitere statistische Merkmale, die einen Hinweis geben können - wie zum Beispiel die Effekt-Größe. Darüber hinaus ist es ohnehin eine wissenschaftliche Forderung, dass ein Ergebnis auch unabhängig reproduzierbar sein muss. Eine Studie mit einem statistisch signifikanten Ergebnis und möglicherweise auch einer guten Effekt-Größe ist kein Beweis. Der Beweis kristallisiert sich erst dann heraus, wenn sich dieses Ergebnis auch in weiteren - möglicherweise auch verbesserten - Studien wieder und wieder zeigt.
Zurück konkret zum Paper:
Er bespricht wie gesagt einzelne Ansätze für Studien-Designs und beschreibt ausführlich einzelne solcher Studien, die ein positives Ergebnis hatten. Kritik an diesen Studien, die es auch zu Hauf gab (z.B. zum "Mars-Effekt" kann man da auf Skeptiker-Seiten einiges finden) erwähnt er gar nicht oder nur mit einem Stichwort und kurzer Quellen-Angabe. Sein Artikel wäre besser/neutraler, wenn er vielleicht auch dazu ein wenig weiter ausgeholt hätte. Und ich weiß, dass es sehr viel mehr Studien zum Themenkomplex gab, als er da aufführt. Wieso erwähnt er nicht auch einige explizit und ähnlcih ausführlich beschrieben mit negativem Ergebnis? Mir fällt auf die Schnelle leider nur eine Studie von Edgar Wunder ein, die in die 3. Studien-Kategorie des Papers passen würde... aus der besagter Edgar Wudner aber leider (noch) keine Veröffentlichung gemacht hat. Die Studie selber fand in den 00-er Jahren statt, und ich weiß von ihr, weil einer der teilnehmenden Astrologen auf seiner Webseite davonb bverichtet und Zwischenergebnisse veröffentlich that, die zunächst positiv waren... aber mit Fortschreiten der Studie verschwanden die Effekte wieder aus der wachsenden Statistik.
Soll ich nich ein wenig mehr über die möglichen Mängel und Fallstricke erklären? Ich kann auch einiges dazu schreiben, was dieses p-Hacking genau bedeutet, und warum das ein Problem ist.