GWUP-Test beinahe bestanden

Nachtrag: Ich habe die Wahrscheinlichkeit für die geforderten 40 oder mehr Treffer bei 50 Versuchen und einer Einzel-Trefferwahrscheinlichkeit von 0,5 ausgerechnet. Ich komme auf etwa 1:83817.
36 Treffer entsprechen nach meinen Berechnungen einem p-Wert von 0,0013 also einer Chance von etwa 1:769.

Ein 5er im Lotto hat die Wahrscheinlichkeit von 1:54201.

Die Messlatte der GWUP - der Alpha-Wert - scheint hier also doch höher als 10^-10 zu sein.

Vielleicht kann jemand anderes auch mal rechnen und meine Werte entweder bestätigen oder anmerken, dass er/sie etwas anderes raus hat.
 
Werbung:
Vielen Dank für deine Antwort, @Joey.

Jain. In der medizinischen Forschung sind 5% üblich. In anderen Forschungsbereichen geht man da durchaus niedriger. Es kommt dabei auch darauf an, welcher Wert im Rahmen der Statistik realistisch erreicht werden kann, wenn die Hypothese wahr sein sollte.

Die 5% waren ein Beispiel, natürlich sind je nach Fachbereich auch noch andere Werte üblich. Noch ein Beispiel: In der empirischen Sozialforschung verwendet man üblicherweise für Alpha 0.05 (= 5%) oder 0.01 (= 1%). Aber es sind auch hier, sogar innerhalb dieses Forschungsbereichs andere Werte denkbar. Worauf es bei der Wahl des Alpha-Wertes ankommt, hast du ja schon richtig angemerkt.

Wie ich im letzten Post schon ausgeführt habe, wählt die GWUP üblicherweise einen sehr niedrigen Alpha-Wert 10^-10 (= 0.0000000001).

Beleg meiner Behauptung:
GWUP schrieb:
Für die GWUP-Tests wurden Alpha-Werte von etwa 10^-10 angesetzt.

Quelle: http://www.gwup.org/images/stories/pdf/themen/gwup-teststatistik.pdf

Das ist in der normalen Wissenschaft nicht üblich. Die GWUP liefert aber auch eine Erklärung, welche die Wahl dieses niedrigen Alpha-Wertes rechtfertigt (Zitat aus dem gesetzten Link):

GWUP schrieb:
In der normalen Wissenschaft sind solche kleinen Werte für Alpha nicht üblich. Man beachte aber, dass es hier nicht nur um wissenschaftliche Aussagen geht, sondern auch um das Zahlen einer sehr hohen Prämie. Außerdem ist zu bedenken, dass eventuell im Laufe der Zeit recht viele Kandidaten getestet werden möchten. Die Wahrscheinlichkeit, dass die GWUP irgendwann irrtümlich den Preis zahlen muss, vervielfacht sich um die Anzahl dieser Kandidaten.


Speziell der GWUP geht es also primär darum zu verhindern, dass sie einem Kandidaten irrtümlich den von ihnen angesetzten Preis bezahlen müssen und nicht nur um wissenschaftliche Aussagen.


Auf diesen Abschnitt meines Postes...



Alpha-Wert (= Signifikanzniveau):
Im vorliegenden Test vermutlich 10^-10.
--> Der Alpha-Wert wird vor dem Test festgelegt. Er ist die Schwellenhöhe für die maximal zulässige Irrtumswahrscheinlichkeit. Damit soll die Wahrscheinlichkeit, dass Herr Textor den Test besteht, obwohl er die paranormalen Fähigkeiten nicht besitzt, möglichst gering gehalten werden. Aber auch wenn bei den Tests der GWUP die Irrtumswahrscheinlichkeit wirklich verschwindend gering ist, kann ein Irrtum nicht zu 100% ausgeschlossen werden.

antwortest du...

Der p-Wert, bzw. der zu unterbietene Alphawert sind NICHT mit der Irrtumswahrscheinlichkeit zu verwechseln. Das sind zwei unterschiedliche sog. bedingte Wahrscheinlichkeiten. Der p-Wert gibt die Wahrscheinlichkeit des Ergebnisses unter der Bedingungn der Nullhypothese an. Die Irrtumswahrscheinlichkeit ist die Wahrscheinlichkeit der Nullhypothese under der Bedingung des Ergebnisses. Diese beiden bedingten Wahrscheinlichkeiten sind über Bayes Theorem miteinnander verknüpft. Um die Irrtumswahrscheinlichkeit auszurechnen, bräuchte man dazu allerdings noch Größen, deren Wert man meist nicht kennt (zum Beispiel die a priori Wahrscheeinlichkeiz, dass die test-Hypothese wahr ist). Daher wird meist der p-Wert bzw. der Alpha-Wert als Messlatte verwendet, dessen Interpretation aber nicht überinterpretiert werden darf.

Zunächst muss ich darauf hinweisen, dass ich den Alpha-Wert und den p-Wert getrennt erläutert habe und lediglich beim Alpha-Wert die Irrtumswahrscheinlichkeit erwähne. (Siehe #19)

Du hast mich jetzt aber etwas verunsichert, denn es kann ja sein, dass ich völlig daneben liege. Ich habe deswegen mal in einem meiner Fachbücher nachgeschaut. Das gilt jetzt aber nur für die empirische Sozialforschung, vielleicht ist es ja in der Physik anders?:

Üblicherweise wählt man für α eine geringe Wahrscheinlichkeit, z. B. 0,05 oder 0,01. Erst wenn es relativ unwahrscheinlich ist, dass die in der Stichprobe gefundene Differenz zufällig auftritt trotz Nichtexistenz eines Unterschieds in der Population, wird man H0* verwerfen und die Alternativhypothese akzeptieren. Man nimmt also bewusst den Irrtum in Kauf, dass H0 fälschlicherweise abgelehnt wird. Diese Irrtumswahrscheinlichkeit ist α.

*Anmerkung von mir: mit H0 ist die Nullhypothese gemeint.

Auf der folgenden Seite wird ein Beispiel genannt, welche Schritte beim Signifikanztest gemacht werden:

[...]

Schritt 3: Festlegung von α

Wir wählen ein Signifikanzniveau (Irrtumswahrscheinlichkeit) von α = 0,05.

[…]

Quelle: Diekmann, Andreas: Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen. 4. Auflage, Hamburg 2010, S. 706f.

Aus dem Zitierten geht hervor, dass der Alpha-Wert als das „Signifikanzniveau“ und alternativ auch explizit als die „Irrtumswahrscheinlichkeit“ bezeichnet wird. Zudem wird er „gewählt“, also festgesetzt.

Der Alpha-Wert soll einfach sicherstellen, dass die Wahrscheinlichkeit, die Nullhypothese irrtümlicherweise zu verwerfen, gering ist. Bezogen auf den aktuellen Psi-Test soll also die Wahrscheinlichkeit, dass Herr Textor den Test besteht, obwohl er die paranormalen Fähigkeiten nicht besitzt, sondern rein zufällig richtige Angaben macht, möglichst gering gehalten werden.

Anders ausgedrückt: Die Wahrscheinlichkeit einen Fehler 1. Art zu begehen, soll möglichst gering gehalten werden. Damit diese Wahrscheinlichkeit gering gehalten werden kann, bedarf es eines Schwellenwerts, der die maximal zulässige Irrtumswahrscheinlichkeit festlegt.

Mit „Fehler 1. Art“ ist hier konkret gemeint, dass die Nullhypothese "Herr Textor verfügt über keine paranormalen Fähigkeiten." verworfen wird und man die Alternativhypothese "Herr Textor verfügt über paranormale Fähigkeiten." annimmt. Aber in Wirklichkeit verfügt Herr T. über keine paranormalen Fähigkeiten, sondern hat nur zufällig ein so gutes Ergebnis erzielt.

Der p-Wert gibt die Wahrscheinlichkeit des Ergebnisses unter der Bedingungn der Nullhypothese an. Die Irrtumswahrscheinlichkeit ist die Wahrscheinlichkeit der Nullhypothese under der Bedingung des Ergebnisses.

Kannst du bitte den Inhalt beider Sätze konkret auf den vorliegenden PSI-Test anwenden?
In etwa so, wie ich die ganze Zeit meine abstrakten Ausführungen auf den vorliegenden Test anwende. Das würde verhindern, dass ich dich an der ein oder anderen Stelle evtl. missverstehe. Danke. :)
 
(,,,) Wie ich im letzten Post schon ausgeführt habe, wählt die GWUP üblicherweise einen sehr niedrigen Alpha-Wert 10^-10 (= 0.0000000001).

Beleg meiner Behauptung:


Quelle: http://www.gwup.org/images/stories/pdf/themen/gwup-teststatistik.pdf

Das ist in der normalen Wissenschaft nicht üblich. Die GWUP liefert aber auch eine Erklärung, welche die Wahl dieses niedrigen Alpha-Wertes rechtfertigt (Zitat aus dem gesetzten Link):

Ja, in dem Link steht diese Zahl. Meine Berechnungen ergeben allerdings, dass die geforderte Schwelle 40 von 50 Treffern einen wesentlich höheren Alpha-Wert entsprechen würde. Entweder ich habe mich da verrechnet, oder die GWUP ist von den strengen Kriterien etwas abgewichen. nach meinen Berechnungen würde eine Alpha-Wert von 10^-10 bedeuten, dass 47 oder mehr von 50 Treffern gefordert wären.

Speziell der GWUP geht es also primär darum zu verhindern, dass sie einem Kandidaten irrtümlich den von ihnen angesetzten Preis bezahlen müssen und nicht nur um wissenschaftliche Aussagen.

Wo ist da der Unterschied? Es geht darum, falsch-positive Ergebnise zu verhindern.

Zunächst muss ich darauf hinweisen, dass ich den Alpha-Wert und den p-Wert getrennt erläutert habe und lediglich beim Alpha-Wert die Irrtumswahrscheinlichkeit erwähne. (Siehe #19) (...)

Schon klar. Aber das ist nicht als die Irrtumswahrscheinlichkeit zu deuten (was allerdings in den Wissenschaften gerne fälschlicherweise geschieht).

Nehmen wir zwei Urnen - Urne A und urne B - mit jeweils 1000 Zettelchen mit statistisch überprüfbaren Behauptungen drauf. In Urne A wissen wir, dass es plausible Behauptungen sind und 90% aller Behauptungen wahr sind. In urne B sind unplausible Behauptungen drin, und nur 10% sind wahr. Nehmen wir weiter an, dass alle wahren Behauptungen auch als wahr erkannt werden - das ist eine kleine Vereinfachung, wenn man falsch-negative Behauptungen aber in der folgenden Rechnung noch mit berücksichtigen würde, würde das an dem Fazit der Berechnung nichts ändern. Für dieses Beispiel wählen wir jetzt ein Alpha-Wert von 5%. Das bedeutet allerdings auch, dass 5% aller falschen Behauptungen ein falsch-positives Ergebnis - durch Zufall - bekommen.

In Urne A haben wir 900 wahre und 100 falsche Behauptungen. Von den 900 wahren werden alle erkannt, von den 100 falschen Behauptungen bekommen 5 ein falsch-positives Ergebnis (also ein p-Wert kleiner als der Alpha-Wert). Wer sehen also 905 Behauptungen, die ein positives Ergebnis haben. Irrtumswahrscheinlichkeit 5/905 bzw. etwa 0,005.

In Urne B haben wir 100 wahre Behauptungen, die alle erkennt werden und 900 falsche, von denen aber 45 ein falsch positives Ergebnis bekommen. Insgesammt sehen wir 145 positive Ergebnisse. Irrtumswahrscheinlichkeit 45/145 oder in etwa 0,31.

Um die Irrtumswahrscheinlichkeit zu ermitteln, also die Wahrscheinlichkeit im Falle eines positiven Ergebnisses, dass es falsch-positiv war, benötigen wir auch die a priori Wahrscheinlichkeit. In unserem Beispiel mit den Urnen war diese Gegeben (90% und 10%). In der Realität haben wir sie in der Regeln nicht. Man kann nur über die Plausibilität in etwa sagen, ob es "wahrscheinlich" oder "unwahrscheinlich" ist, aber nicht genau quantifizieren.

Das meine ich, wenn ich sage, man das p-Wert und Alpha-Wert nicht mit der Irrtumswahrscheinlichkeit verwechseln, und nicht überzubewerten. Als alleinige Messlatte bietet der p- und Alphawert einen Vorteil gegenüber unplausiblen Behauptungen (siehe Urne B).

Als Quelle verweise ich nochmal auf den Artikel "Der Fluch des p-Werts" in Spektrum der Wissenschaft Ausgabe 9/2014. Desweiteren gibt es ein Buch, welches auch diese Thematik aufgreift: "Der Schein der Weisen" von Hans-Peter Beck-Bornholdt und Hans-Hermann Dubben. Die Autoren ziehen das Fazit, dass das aktuel meist verwendete Studien-Design absolut ungeeignet wäre. Dieses strenge Fazit ziehe ich nicht. Aber man muss halt im Hinterkopf behalten, dass p- und Alpha-Wert alleine als Messlatte keine gute Entscheidungsgrundlage bietet.
 
Nachtrag: Ich habe die Wahrscheinlichkeit für die geforderten 40 oder mehr Treffer bei 50 Versuchen und einer Einzel-Trefferwahrscheinlichkeit von 0,5 ausgerechnet. Ich komme auf etwa 1:83817.
36 Treffer entsprechen nach meinen Berechnungen einem p-Wert von 0,0013 also einer Chance von etwa 1:769.

Ein 5er im Lotto hat die Wahrscheinlichkeit von 1:54201.

Die Messlatte der GWUP - der Alpha-Wert - scheint hier also doch höher als 10^-10 zu sein.

Vielleicht kann jemand anderes auch mal rechnen und meine Werte entweder bestätigen oder anmerken, dass er/sie etwas anderes raus hat.

Der p-Wert für das tatsächlich erzielte Ergebnis: 0.001301
(n= 50; k= 36; p= 0.5)

Der p-Wert für das geforderte Ergebnis, um den Test zu bestehen: 0.000012
(n= 50; k= 40; p= 0.5)

Ab 40 Treffer wird der p-Wert kleiner als α.

Zur Erinnerung:

Die Nullhypothese wird verworfen, wenn p α.

Die Nullhypothese wird beibehalten, wenn p > α.


Es sieht aber so aus, als ob 10^-10 tatsächlich nicht verwendet wurde. Hmmm....
Ich bin ja fast geneigt die GWUP deswegen mal anzuschreiben. Na mal schauen. :D
 
Der p-Wert für das tatsächlich erzielte Ergebnis: 0.001301
(n= 50; k= 36; p= 0.5)

Der p-Wert für das geforderte Ergebnis, um den Test zu bestehen: 0.000012
(n= 50; k= 40; p= 0.5)

Ab 40 Treffer wird der p-Wert kleiner als α.

Zur Erinnerung:

Die Nullhypothese wird verworfen, wenn p α.

Die Nullhypothese wird beibehalten, wenn p > α.


Es sieht aber so aus, als ob 10^-10 tatsächlich nicht verwendet wurde. Hmmm....
Ich bin ja fast geneigt die GWUP deswegen mal anzuschreiben. Na mal schauen. :D

Ja, das deckt sich mit meinen Zahlen. Und ein Alpha-Wert von 10^-10 wird erst für 47 oder mehr Treffer von 50 Versuchen unterboten.
 
Wo ist da der Unterschied? Es geht darum, falsch-positive Ergebnise zu verhindern.

Meine detaillierte Ausführung sollte lediglich tranzparent machen, wie die GWUP ihren niedrigen Alpha-Wert rechtfertigt. Natürlich gibt es ansonsten bezogen auf die Funktion des Alpha-Wertes keinen Unterschied.

Und danke für dein Beispiel, jetzt weiß ich zumindest was du meinst. Es ändert aber nichts an der Tatsache, dass der Alpha-Wert das Signifikanzniveau ist und in der gängigen Praxis gewählt bzw. festgesetzt wird. Auch meine Beschreibung der Funktionsweise des Alpha-Wertes widerspricht deiner Ausführung nicht. :)


Als Quelle verweise ich nochmal auf den Artikel "Der Fluch des p-Werts" in Spektrum der Wissenschaft Ausgabe 9/2014. Desweiteren gibt es ein Buch, welches auch diese Thematik aufgreift: "Der Schein der Weisen" von Hans-Peter Beck-Bornholdt und Hans-Hermann Dubben. Die Autoren ziehen das Fazit, dass das aktuel meist verwendete Studien-Design absolut ungeeignet wäre. Dieses strenge Fazit ziehe ich nicht. Aber man muss halt im Hinterkopf behalten, dass p- und Alpha-Wert alleine als Messlatte keine gute Entscheidungsgrundlage bietet.

Ich habe "Spektrum der Wissenschaft" nicht abboniert, daher kann ich den Artikel leider nicht lesen.
Das Buch "Schein der Weisen" klingt interessant. Ich werds mal auf meine Leseliste setzen.
 
Ja, das deckt sich mit meinen Zahlen. Und ein Alpha-Wert von 10^-10 wird erst für 47 oder mehr Treffer von 50 Versuchen unterboten.

Entweder hat sich beim Verfassen des Textes, den ich verlinkt habe, ein Fehler seitens der GWUP eingeschlichen oder sie haben tatsächlich die Anforderungen etwas runtergeschraubt.
Na wie auch immer, es bleibt spannend.
 
Meine detailierte Ausführung sollte lediglich tranzparent machen, wie die GWUP ihren niedrigen Alpha-Wert rechtfertigt. Natürlich gibt es ansonsten bezogen auf die Funktion des Alpha-Wertes keinen Unterschied.

Ja, wenn die den Alpha-Wert auf 5% setzen würden, müssten sie das Preisgeld an etwa jeden zwanzigsten Kandidaten auszahlen.

Und danke für dein Beispiel, jetzt weiß ich zumindest was du meinst. Es ändert aber nichts an der Tatsache, dass der Alpha-Wert das Signifikanzniveau ist und in der gängigen Praxis gewählt bzw. festgesetzt wird. Auch meine Beschreibung der Funktionsweise des Alpha-Wertes widerspricht deiner Ausführung nicht. :)

Ja, es ist gängige Praxis, und da spricht meiner Ansicht nach auch nichts dagegen, es weiter so zu handhaben. Es ist ein relativ einfgacher und praktikabler Weg. Man darf die Ergebnisse nur nicht überbewerten, und ein signifikantes Ergebnis ist noch kein Beweis. U.a. darum ist die Reproduzierbarkeit so wichtig.

Ein weiterer Punkt sind natürlich auch methodische Mängel. Z.B., dass der Kandidat (unbewusst) hören kann, ob Wasser oder Druckluft durch den Schlauch strömt. Und auch danach müssen positive Ergebnisse in Reproduktionen abgeklopft werrden.

Entweder hat sich beim Verfassen des Textes, den ich verlinkt habe, ein Fehler seitens der GWUP eingeschlichen oder sie haben tatsächlich die Anforderungen etwas runtergeschraubt.
Na wie auch immer, es bleibt spannend.

Das auf jeden Fall :)
 
Auf Facebook gibt es eine Stellungnahme vom Versuchsleiter Rainer Wolf: https://www.facebook.com/gwup.org/posts/10153517119758784

Rainer Wolf schrieb:
1. Der Kandidat verfügt mit seiner Winkelrute über eine aus heutiger Sicht paranormale Fähigkeit. Dies wird sich bei weiteren Tests herausstellen, zu denen wir ihn einladen werden.
Um kein Missverständnis aufkommen zu lassen: Nach den von der GWUP festgelegten Regeln bekommt er das von uns ausgelobte Preisgeld von 10.000.- Euro erst dann, wenn ihm beim Wiederholungstest 40 oder mehr Treffer gelingen _und_er danach auch den zweiten Testabschnitt besteht, bei dem er bei weiteren 60 Versuchen mindestens 46 Mal erfolgreich sein muss.

Bei einer derartigen Kombination aus zwei Tests kommt das auch mit Alpha = 10^-10 als zu unterbietende Messlatte in etwa hin.
 
Werbung:
Bei einer derartigen Kombination aus zwei Tests kommt das auch mit Alpha = 10^-10 als zu unterbietende Messlatte in etwa hin.

Wiederholungstest und zweiter Testabschnitt ergeben einen p-Wert von 0.000 000 001 1
(n= 110; k= 86; p= 0.5)

Ja, kommt in etwa hin.

Danke für den Link. :)
 
Zurück
Oben