Äquivalenztest

Äquivalenztests sind eine Variation von Hypothesentests, mit denen statistische Schlussfolgerungen aus beobachteten Daten gezogen werden können.

In Äquivalenztests wird die Nullhypothese definiert als ein Effekt, der groß genug ist, um als interessant angesehen zu werden, spezifiziert durch eine Äquivalenzgrenze. Die alternative Hypothese ist jeder Effekt, der weniger extrem ist als die gebundene Äquivalenz. Die beobachteten Daten werden statistisch mit den Äquivalenzgrenzen verglichen.

Wenn der statistische Test zeigt, dass die beobachteten Daten überraschend sind, unter der Annahme, dass wahre Effekte mindestens so extrem wie die Äquivalenzgrenzen sind, kann ein Neyman-Pearson-Ansatz für statistische Schlussfolgerungen verwendet werden, um Effektgrößen, die größer als die Äquivalenzgrenzen sind, mit einer im Voraus festgelegten Typ-1-Fehlerrate abzulehnen.

Äquivalenztests können zusätzlich zu Signifikanztests mit Nullhypothese durchgeführt werden.[1] Dies könnte häufige Fehlinterpretationen von p-Werten, die größer als der Alpha-Wert sind, verhindern, um das Fehlen eines wahren Effekts zu unterstützen. Darüber hinaus können Äquivalenztests statistisch signifikante, aber praktisch unbedeutende Effekte identifizieren, wenn die Effekte statistisch von Null verschieden sind, aber auch statistisch kleiner als jede als sinnvoll erachtete Effektgröße (siehe erste Abbildung).[2]

Motivation

Äquivalenztests stammen aus dem Bereich der Pharmakodynamik bzw. der Medikamentenentwicklung.[3] Eine Anwendung besteht darin, zu zeigen, dass ein neues Medikament, das billiger ist als verfügbare Alternativen, genauso gut funktioniert wie ein bestehendes Medikament. Im Wesentlichen bestehen Äquivalenztests darin, ein Konfidenzintervall um eine beobachtete Effektgröße herum zu berechnen und Effekte abzulehnen, die extremer sind als die Äquivalenzgrenze, wenn sich das Konfidenzintervall nicht mit der Äquivalenzgrenze überschneidet. Bei zweiseitigen Tests wird eine obere und untere Äquivalenzgrenze angegeben. In Nicht-Unterlegenheitsstudien, in denen das Ziel darin besteht, die Hypothese zu testen, dass eine neue Behandlung nicht schlechter ist als bestehende Behandlungen, ist nur eine niedrigere Äquivalenzgrenze im Voraus festgelegt.

Mittlere Differenzen (schwarze Quadrate) und 90 % Konfidenzintervalle (horizontale Linien) mit Äquivalenzgrenzen ΔL = −0,5 und ΔU= 0,5 für vier Kombinationen von Testergebnissen, die statistisch äquivalent sind oder nicht und sich statistisch von Null oder nicht unterscheiden. Das Muster A ist statistisch äquivalent, das Muster B ist statistisch verschieden von 0, das Muster C ist praktisch unbedeutend und das Muster D ist nicht schlüssig (weder statistisch verschieden von 0 noch äquivalent).

TOST-Verfahren

Ein sehr einfacher Äquivalenztestansatz ist das Verfahren der „zwei einseitigen t-Tests“ (englisch two one sided tests, kurz: TOST).[4] Im TOST-Verfahren wird eine obere (ΔU) und eine untere (–ΔL) Äquivalenzgrenze basierend auf der kleinsten Effektgröße von Interesse (z. B. eine positive oder negative Differenz von d = 0,3) angegeben. Zwei zusammengesetzte Nullhypothesen werden getestet: H01: Δ ≤ -ΔL und H02: Δ ≥ ΔU. Wenn beide einseitigen Tests statistisch abgelehnt werden können, können wir zu dem Schluss kommen, dass -ΔL < Δ < ΔU, oder dass der beobachtete Effekt innerhalb der Äquivalenzgrenzen liegt und statistisch kleiner ist als jeder als sinnvoll erachtete und praktisch gleichwertige Effekt.[5] Alternativen zum TOST-Verfahren wurden ebenfalls entwickelt.[6] Eine kürzlich erfolgte Modifikation von TOST macht den Ansatz bei wiederholten Messungen und der Bewertung mehrerer Variablen möglich.[7]

Vergleich zwischen t-Test und Äquivalenztest

Der Äquivalenztest kann zu Vergleichszwecken aus dem t-Test „induziert“ werden.[8] Bei einem t-Test zum Signifikanzniveau αt-Test und welcher für eine Effektgröße dr eine Power von 1-βt-Test erreicht, führen beide Tests zu der gleichen Schlussfolgerung, wenn die Parameter Δ=dr sowie αequiv.-testt-test und βequiv.-testt-test zusammenfallen, d. h. die Fehler (Typ I und Typ II) zwischen dem t-Test und dem Äquivalenztest sind vertauscht. Um dies für den t-Test zu gewährleisten, muss entweder die Fallzahlplanung korrekt durchgeführt werden oder durch Anpassung des Signifikanzniveaus αt-test ein korrigierter Test bestimmt werden.[8] Beide Ansätze haben praktische Probleme, da die Fallzahlplanung auf nicht überprüfbaren Annahmen hinsichtlich der Standardabweichung beruht und beim Anpassen von αt-test (sogenannter revised t-Test) numerische Probleme auftreten.[8] Diese Einschränkungen treten bei Anwendung des Äquivalenztests nicht auf.

Die zweite Abbildung ermöglicht einen Vergleich des Äquivalenztests und des t-Tests, wenn die Fallzahlplanung von Differenzen zwischen der A-priori-Standardabweichung und der Standardabweichung aus der Stichprobe betroffen ist. Die Verwendung eines Äquivalenztests anstelle eines t-Tests stellt sicher, dass αequiv.-test (bzw. βt-test) beschränkt ist, was der t-Test nicht tut. Insbesondere im Fall kann im t-Test der Typ II Fehler beliebig groß werden. Demgegenüber führt dazu, dass der t-Test strenger ausfällt als der für dr geplante, was zu zufälligen Nachteilen (z. B. eines Geräteherstellers) führen kann. Dies macht den Äquivalenztest sicherer in der Anwendung.

Wahrscheinlichkeit, den t-Test (a) bzw. den Äquivalenztest (b) zu bestehen, abhängig vom tatsächlichen Fehler 𝜇, vgl.[9]

Weiterführende Literatur

Einzelnachweise

  1. James L. Rogers, Kenneth I. Howard, John T. Vessey: Using significance tests to evaluate equivalence between two experimental groups. In: Psychological Bulletin. 113. Jahrgang, Nr. 3, 1993, S. 553–565, doi:10.1037/0033-2909.113.3.553.
  2. Daniël Lakens: Equivalence Tests. In: Social Psychological and Personality Science. 8. Jahrgang, Nr. 4, 5. Mai 2017, S. 355–362, doi:10.1177/1948550617697177, PMID 28736600 (englisch).
  3. Walter W. Hauck, Sharon Anderson: A new statistical procedure for testing equivalence in two-group comparative bioavailability trials. In: Journal of Pharmacokinetics and Biopharmaceutics. 12. Jahrgang, Nr. 1, 1. Februar 1984, ISSN 0090-466X, S. 83–91, doi:10.1007/BF01063612, PMID 6747820 (englisch).
  4. Donald J. Schuirmann: A comparison of the Two One-Sided Tests Procedure and the Power Approach for assessing the equivalence of average bioavailability. In: Journal of Pharmacokinetics and Biopharmaceutics. 15. Jahrgang, Nr. 6, 1. Dezember 1987, ISSN 0090-466X, S. 657–680, doi:10.1007/BF01068419 (englisch).
  5. Michael A. Seaman, Ronald C. Serlin: Equivalence confidence intervals for two-group comparisons of means. In: Psychological Methods. 3. Jahrgang, Nr. 4, 1998, S. 403–411, doi:10.1037/1082-989x.3.4.403.
  6. Stefan Wellek: Testing statistical hypotheses of equivalence and noninferiority. Chapman and Hall/CRC, 2010, ISBN 978-1-4398-0818-4.
  7. Evangeline M. Rose, Thomas Mathew, Derek A. Coss, Bernard Lohr, Kevin E. Omland: A new statistical method to test equivalence: an application in male and female eastern bluebird song. In: Animal Behaviour. 145. Jahrgang, 2018, ISSN 0003-3472, S. 77–85, doi:10.1016/j.anbehav.2018.09.004.
  8. a b c Michael Siebert, David Ellenberger: Validation of automatic passenger counting: introducing the t-test-induced equivalence test. In: Transportation. 10. April 2019, ISSN 0049-4488, doi:10.1007/s11116-019-09991-9 (englisch).
  9. Michael Siebert, David Ellenberger: Validation of automatic passenger counting: introducing the t-test-induced equivalence test. In: Transportation. 10. April 2019, ISSN 0049-4488, doi:10.1007/s11116-019-09991-9 (englisch).

Auf dieser Seite verwendete Medien

Equivalence Test.png
Autor/Urheber: Lakens, Lizenz: CC BY-SA 4.0
Mean differences (black squares) and 90% confidence intervals (horizontal lines) with equivalence bounds ΔL = -0.5 and ΔU= 0.5 for four combinations of test results that are statistically equivalent or not and statistically different from zero or not. Pattern A is statistically equivalent, pattern B is statistically different from 0, pattern C is practically insignificant, and pattern D is inconclusive (neither statistically different from 0 nor equivalent).
T-test vs equivalence test.png
Autor/Urheber: Xor2k, Lizenz: CC BY-SA 4.0
Chances to pass the t-test or the equivalence test depending on the actual error 𝜇. Different lines denote different sample sizes obtained from different a priori choices of the standard deviation σ. The golden, solid curve always represents a correctly estimated sample size, the green curve a sample which is too large and the other curves samples which are too small. Neglecting the t-test type II (or the equivalence test type I) error implies a power of 50%. The thick grey lines denote 𝛥=1%. For comparison: in the bottom graph, the incorrect decisions of a reference test are red, the correct decisions are coloured blue. The reason for red areas to exist are economic considerations to limit the test costs: further increasing the sample size towards infinity would make the red areas disappear, at least for the revised t-test or the equivalence test. For the t-test, the areas with systematic error 𝜇>1% and 𝜇<−1% remain blue, but the inner turns red. This behaviour is counterintuitive to the idea that the error of a statistic test goes to zero as the sample size goes to infinity.

Original Source: Figure 2 from https://doi.org/10.1007/s11116-019-09991-9

Reworked version source code see https://gist.github.com/xor2k/2256abe4106cc8ac04a24f42bd36f2c6