Trennschärfe eines Tests

Trennschärfe eines Tests[1][2][3] beschreibt die Entscheidungsfähigkeit eines statistischen Tests. Andere Ausdrücke hierfür sind Güte[4], Macht[5], Power[6], Schärfe eines Tests, Teststärke[7][8] oder Testschärfe. Das entsprechende Fachgebiet ist die Testtheorie, ein Teilgebiet der mathematischen Statistik. Im Kontext der Beurteilung eines binären Klassifikators wird die Trennschärfe eines Tests auch als Sensitivität (recall) bezeichnet. Die Trennschärfe eines Tests ist genauso wie das Niveau eines Tests ein Begriff, der aus der Gütefunktion (Trennschärfefunktion) abgeleitet ist.

Die Trennschärfe eines Tests gibt die Fähigkeit eines Tests an, Unterschiede (Effekte) zu erkennen, wenn sie in Wirklichkeit vorhanden sind. Genauer gesagt gibt die Trennschärfe an, mit welcher Wahrscheinlichkeit ein statistischer Test die abzulehnende Nullhypothese („Es gibt keinen Unterschied“) korrekt zurückweist, wenn die Alternativhypothese („Es gibt einen Unterschied“) wahr ist. Unter der Annahme, dass die Nullhypothese die Abwesenheit einer bestimmten Krankheit („nicht krank“), die Alternativhypothese das Vorhandensein der Krankheit („krank“) und die Ablehnung der Nullhypothese einen positiven diagnostischen Test darstellt, ist die Trennschärfe des Tests äquivalent[9] zur Sensitivität des Tests (der Wahrscheinlichkeit, dass ein Kranker ein positives Testergebnis aufweist). Zugleich stellt diese Tatsache einen Brückenschlag zwischen der Testtheorie und der Theorie diagnostischen Testens dar.[10]

Die Trennschärfe des Tests kann also als „Ablehnungskraft“ des Tests interpretiert werden.[11] Hohe Trennschärfe des Tests spricht gegen niedrige Trennschärfe für die Nullhypothese . Es wird versucht, den Ablehnbereich so zu bestimmen, dass die Wahrscheinlichkeit für die Ablehnung einer „falschen Nullhypothese“ , d. h. für Beibehaltung der Alternativhypothese unter der Bedingung, dass wahr ist, möglichst groß ist: . Um die Trennschärfe eines Tests berechnen zu können, muss die Alternativhypothese in Form einer konkreten Punkthypothese spezifiziert sein.

Sie bildet das Komplement zur Typ-II-Fehlerwahrscheinlichkeit , d. h. der Wahrscheinlichkeit, bei Gültigkeit von fälschlich zugunsten der Nullhypothese () zu entscheiden. Die Trennschärfe selbst ist also die Wahrscheinlichkeit, einen ebensolchen Fehler zu vermeiden.

Beschreibung

Darstellung der Trennschärfe und des Signifikanzniveaus eines statistischen Tests bei gegebener Nullhypothese (sampling distribution 1) und Alternativhypothese (sampling distribution 2). Eingezeichnet ist ebenso der kritische Wert, der meist durch die Wahl des Signifikanzniveaus festgelegt wird.

Für eine Fehlerwahrscheinlichkeit vom Typ II beträgt die entsprechende Trennschärfe . Wenn beispielsweise Experiment E eine Trennschärfe von und Experiment F eine Trennschärfe von hat, besteht eine höhere Wahrscheinlichkeit, dass Experiment E einen Typ-II-Fehler aufweist als Experiment F, und Experiment F ist, aufgrund seiner geringeren Wahrscheinlichkeit eines Fehlers vom Typ II, zuverlässiger als Experiment E. Äquivalent kann die Trennschärfe eines Tests als die Wahrscheinlichkeit angesehen werden, dass ein statistischer Test die abzulehnende Nullhypothese („Es gibt keinen Unterschied“) korrekt zurückweist, wenn die Alternativhypothese („Es gibt einen Unterschied“) wahr ist, d. h.

.

Sie kann also als Fähigkeit eines Tests angesehen werden, einen bestimmten Effekt zu erkennen, wenn dieser bestimmte Effekt tatsächlich vorliegt. Wenn keine Gleichheit ist, sondern lediglich die Negation von (so hätte man zum Beispiel für mit einem nicht beobachtbaren Populationsparameter als Negation einfach ), dann kann die Trennschärfe des Tests nicht berechnet werden, es sei denn die Wahrscheinlichkeiten für alle möglichen Werte des Parameters, die die Nullhypothese verletzen sind bekannt. Man bezieht sich also allgemein auf die Trennschärfe eines Tests gegen eine spezifische Alternativhypothese (Punkthypothese).

Mit zunehmender Trennschärfe nimmt die Wahrscheinlichkeit eines Fehlers vom Typ II ab, da die Trennschärfe gleich ist. Ein ähnliches Konzept ist die Fehlerwahrscheinlichkeit vom Typ I. Je kleiner bei vorgegebenem Fehler 1. Art die Wahrscheinlichkeit ist, desto schärfer trennt der Test und . Ein Test heißt trennscharf, wenn er im Vergleich zu anderen möglichen Tests bei vorgegebenem eine relativ hohe Trennschärfe aufweist. Wenn wahr ist, ist die maximale Trennschärfe eines Tests gleich .[12]

Wirklichkeit
H0 ist wahrH1 ist wahr
Entscheidung
des Tests …
… für H0Richtige Entscheidung (Spezifität)
Wahrscheinlichkeit: 1 - α
Fehler 2. Art
Wahrscheinlichkeit: β
… für H1Fehler 1. Art
Wahrscheinlichkeit: α
richtige Entscheidung
Wahrscheinlichkeit: 1-β (Trennschärfe des Tests)

Trennschärfe-Analysen

Trennschärfe-Analysen bzw. Power-Analysen können verwendet werden, um die erforderliche minimale Stichprobengröße zu berechnen, bei der mit hinreichender Wahrscheinlichkeit (Trennschärfe ) ein Effekt einer bestimmten Größe (Effektstärke) erkannt werden kann. Beispiel: „Wie oft muss ich eine Münze werfen, um zu dem Schluss zu kommen, dass sie um ein gewisses Ausmaß manipuliert ist?“. Im Kontext der Beurteilung eines binären Klassifikators wird die Trennschärfe eines Tests auch als Sensitivität bezeichnet.

Trennschärfe-Analysen sind in vielen Software-Bibliotheken implementiert, beispielsweise im Python-Paket statsmodels[13], in der Software G*power und in der statistischen Umgebung R[14].

Faustregel Stichprobengröße

Die grobe Faustregel von Lehr[15][16] besagt, dass die Stichprobengröße für einen zweiseitigen Zweistichproben-t-Test mit Trennschärfe 80 % () und Signifikanzniveau folgendes gilt:

wobei die (geschätzte) Populationsvarianz ist und die zu detektierenden Unterschiede der Mittelwerte beider Stichproben. Um die Trennschärfe auf 90 % zu erhöhen muss statt mit 16 mit 21 multipliziert werden. Für einen Einstichproben-t-Test wird 16 mit 8 ersetzt.

Eine intuitive Erklärung ist laut Lehr, dass bei einer Standardnormalverteilung circa 80 % der Fläche unter der Wahrscheinlichkeitsdichte rechts von liegt. Daher sollte bei am kritischen Wert folgendes gelten:

wobei der mit multiplizierte Standardfehler des Mittelwertes ist (wobei der Faktor auftritt, da die Standardabweichung der Schätzung der Differenz zweier Mittelwerte betrachtet wird). Auflösen nach liefert

Der Wert der Faustregel liegt in der einfachen Form (welche auch nach umgestellt werden kann) und der leichten Merkbarkeit. Bei genauen Aussagen, sollte man eine Trennschärfen-Analyse mit einer Software-Bibliothek durchführen.

Wahl des β-Fehler-Niveaus

Einfluss des Stichprobenumfangs auf die Gütefunktion bzw. Trennschärfe eines einseitigen (in diesem Fall linksseitigen) Tests
Einfluss des Stichprobenumfangs auf die Gütefunktion bzw. Trennschärfe eines zweiseitigen Tests

Für Wirksamkeitsstudien medizinischer Behandlungen schlägt Cohen (1969: 56) für einen 4-mal so hohen Wert wie für das Signifikanzniveau vor. Wenn ist, sollte das -Fehler-Niveau also 20 % betragen. Liegt in einer Untersuchung die -Fehler-Wahrscheinlichkeit (Wahrscheinlichkeit für einen Fehler 2. Art) unter dieser 20 %-Grenze, so ist die Trennschärfe () damit größer als 80 %.

Es sollte dabei bedacht werden, dass -Fehler bei vorgegebenem, festem Signifikanzniveau im Allgemeinen nicht direkt kontrolliert werden können. So ist der -Fehler bei vielen asymptotischen oder nichtparametrischen Tests schlechthin unberechenbar oder es existieren nur Simulationsstudien. Bei einigen Tests dagegen, zum Beispiel dem t-Test, kann der -Fehler kontrolliert werden, wenn der statistischen Auswertung eine Stichprobenumfangsplanung vorausgeht.

Ein (aus den Parametern des t-Tests induzierter) Äquivalenztest kann verwendet werden, um den (t-Test) -Fehler unabhängig von der Fallzahlplanung zu kontrollieren. In diesem Fall ist das (t-Test) Signifikanzniveau variabel.

Bestimmungsfaktoren der Trennschärfe

Es gibt verschiedene Möglichkeiten zur Erhöhung der Trennschärfe eines Tests. Die Trennschärfe () wird größer:[17]

  • mit wachsender Differenz von (das bedeutet: ein großer Unterschied zwischen zwei Teilpopulationen wird seltener übersehen als ein kleiner Unterschied)
  • mit kleiner werdender Merkmalsstreuung
  • mit größer werdendem Signifikanzniveau (sofern nicht festgelegt ist)
  • mit wachsendem Stichprobenumfang, da der Standardfehler dann kleiner wird: . Kleinere Effekte lassen sich durch einen größeren Stichprobenumfang trennen
  • bei einseitigen Tests im Vergleich zu zweiseitigen Tests: Für den zweiseitigen Test braucht man einen etwa um größeren Stichprobenumfang, um dieselbe Trennschärfe wie für den einseitigen Test zu erreichen.
  • durch die Verwendung des besten bzw. trennschärfsten (englisch most powerful) Tests[12]
  • durch die Reduktion von Streuung in den Daten, z. B. durch den Einsatz von Filtern oder die Wahl von homogenen Untergruppen (Stratifizierung)[12]
  • durch die Erhöhung der Empfindlichkeit des Messverfahrens (Verstärken der Effekte, z. B. durch höhere Dosierung)[12]

Wichtig für die Trennschärfe bzw. Power ist auch die Art des statistischen Tests: Parametrische Tests wie zum Beispiel der t-Test haben, falls die Verteilungsannahme stimmt, bei gleichem Stichprobenumfang stets eine höhere Trennschärfe als nichtparametrische Tests wie zum Beispiel der Wilcoxon-Vorzeichen-Rang-Test. Weichen die angenommene und die wahre Verteilung jedoch voneinander ab, liegt also beispielsweise in Wahrheit eine Laplace-Verteilung zugrunde, während eine Normalverteilung angenommen wurde, können nichtparametrische Verfahren jedoch auch eine wesentlich größere Trennschärfe aufweisen als ihre parametrischen Gegenstücke.

Entgegengesetzte Notation

In manchen Quellen wird – was für Verwirrung sorgen kann – für den Fehler 2. Art und die Trennschärfe die genau entgegengesetzte Notation verwendet, also die Wahrscheinlichkeit, einen Fehler 2. Art zu begehen, mit dem Wert bezeichnet, die Trennschärfe dagegen mit .[18]

Siehe auch

Literatur

  • Jacob Cohen: Statistical Power Analysis for the Behavioral Sciences. Erlbaum, Hillsdale, NJ 1969, ISBN 0-8058-0283-5.

Weblinks

Wiktionary: Power – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise

  1. Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2016, ISBN 978-3-662-50371-3, S. 460.
  2. Otfried Beyer, Horst Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik. 1976, S. 154.
  3. Bernd Rönz, Hans G. Strohe (1994): Lexikon Statistik. Gabler Verlag, S. 147
  4. Otfried Beyer, Horst Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik. 1976, S. 154.
  5. Bernd Rönz, Hans G. Strohe (1994): Lexikon Statistik. Gabler Verlag, S. 147
  6. Lothar Sachs, Jürgen Hedderich: Angewandte Statistik: Methodensammlung mit R. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2018, ISBN 978-3-662-56657-2, S. 460.
  7. Lothar Sachs, Jürgen Hedderich: Angewandte Statistik: Methodensammlung mit R. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2018, ISBN 978-3-662-56657-2, S. 460.
  8. Bernd Rönz, Hans G. Strohe (1994): Lexikon Statistik. Gabler Verlag, S. 147
  9. Dies gilt, da . Für die Bedeutung der Notation, siehe Wahrheitsmatrix: Richtige und falsche Klassifikationen.
  10. F. J. Dorey: Statistics in brief: Statistical power: what is it and when should it be used? In: Clinical orthopaedics and related research. Band 469, Nummer 2, Februar 2011, S. 619–620, doi:10.1007/s11999-010-1435-0, PMID 20585913, PMC 3018227 (freier Volltext).
  11. Ludwig von Auer: Ökonometrie. Eine Einführung. 6., durchges. u. aktualisierte Auflage. Springer, 2013, ISBN 978-3-642-40209-8, S. 128.
  12. a b c d Lothar Sachs, Jürgen Hedderich: Angewandte Statistik: Methodensammlung mit R. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2018, ISBN 978-3-662-56657-2, S. 461
  13. Statistics stats power-and-sample-size-calculations — statsmodels. Abgerufen am 24. Oktober 2021.
  14. Marco Perugini, Marcello Gallucci und Giulio Costantini: A Practical Primer To Power Analysis for Simple Experimental Designs. Band 31, Nr. 1, 9. Juli 2018, S. 20, doi:10.5334/irsp.181 (rips-irsp.com [abgerufen am 10. Februar 2023]).
  15. Robert Lehr: SixteenS-squared overD-squared: A relation for crude sample size estimates. In: Statistics in Medicine. Band 11, Nr. 8, 1992, ISSN 0277-6715, S. 1099–1102, doi:10.1002/sim.4780110811.
  16. Gerald van Belle: Statistical Rules of Thumb, Second Edition (= Wiley Series in Probability and Statistics). John Wiley & Sons, Inc., Hoboken, NJ, USA 2008, ISBN 978-0-470-37796-3.
  17. J. Bortz: Statistik für Sozialwissenschaftler. Springer, Berlin 1999, ISBN 3-540-21271-X.
  18. Erwin Kreyszig: Statistische Methoden und ihre Anwendungen. 7. Auflage. Göttingen 1998, S. 209ff.

Auf dieser Seite verwendete Medien

PowerFunctionAndSampleSize-two-sided de.png
Autor/Urheber: Qniemiec, Lizenz: CC BY-SA 3.0
Einfluss des Stichprobenumfang auf die Gütefunktion eines zweiseitigen Hypothesentests
PowerFunctionAndSampleSize-one-sided de.png
Autor/Urheber: Qniemiec, Lizenz: CC BY-SA 3.0
Einfluss des Stichprobenumfang auf die Gütefunktion eines einseitigen Hypothesentests
Statistical test, significance level, power.png
Autor/Urheber: user3000877 from https://stats.stackexchange.com/users/221237/user3000877, Lizenz: CC BY-SA 4.0
Illustration of the type I error and the power of a statistical test.