Statistische Power (Teststärke) mit Beispielen

Statistische Power: Stärke eines Tests

Die statistische Power bzw. Teststärke beschreibt die Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt in einer Population aufzudecken. Unter ansonsten gleichen Bedingungen hat ein Test, der auf einer großen Stichprobe beruht, eine höhere statistische Aussagekraft als ein Test mit einer kleinen Stichprobe. Es gibt auch Möglichkeiten, die Power zu erhöhen, ohne den Stichprobenumfang zu vergrößern. Die meisten veröffentlichten Studien weisen eine geringe Teststärke auf, was zu gravierenden Fehlinterpretationen der Ergebnisse führen kann.

Redaktionelle Verantwortung: Stanley Oiseth, Lindsay Jones, Evelin Maza

Inhalt

Definition und Bedeutung

Merkmale

Häufige Fehler

Berechnung

Beispiele für Power-Analysen

Übungsaufgaben

Quellen

Kostenloser
Download

Lernleitfaden
Medizin ➜

Mit Video-Repetitorien von Lecturio kommst du sicher
durch Physikum, M2 und M3.

Kostenlos testen

Definition und Bedeutung

Definition

Die Stärke bzw. Güte T eines statistischen Tests, auch als Power (von engl.: statistical power) bezeichnet, wird auf drei verschiedene Arten ausgedrückt:

Sie beschreibt die Wahrscheinlichkeit, Signifikanz zu finden, wenn die Alternativhypothese wahr ist.
Sie bezeichnet die Wahrscheinlichkeit, dass eine falsche Nullhypothese korrekterweise zurückgewiesen wird. Die Nullhypothese ist die Annahme, dass es keinen signifikanten Unterschied zwischen bestimmten Populationen – z. B. zwischen Kontroll- und Versuchsgruppe – gibt (Bsp.: Nullhypothese: „Die Herzfrequenz mit oder ohne OP am Herzen unterscheidet sich im Mittel nicht.“).
T = 1 – Beta (β), wobei β dem Fehler zweiter Art (Beibehalten einer falschen Nullhypothese) bzw. 1 – Sensitivität entspricht. Je mehr Power eine klinisch-experimentelle Studie besitzt, desto eher deckt sie einen tatsächlich vorhandenen Behandlungseffekt auf.

Geringe Teststärke

Weniger als 13 % der 31.873 klinischen Studien, die zwischen 1974 und 2017 veröffentlicht wurden, wiesen eine adäquate Testgüte auf. Eine Studie mit niedriger Power bedeutet, dass die Testergebnisse fragwürdig sind und potenziell schwerwiegende Probleme aufwerfen, einschließlich:

Eine geringere Chance, einen echten, aussagekräftigen Effekt in der Studienpopulation zu entdecken, was wiederum die Durchführung weiterer Studien verhindern kann
Geringere Wahrscheinlichkeit, dass ein statistisch signifikantes Ergebnis einen echten Effekt widerspiegelt (z. B. mehr falsch-positive Ergebnisse)
Überschätzung der tatsächlichen Größe des Behandlungseffekts (Effektstärke, ES)
Geringe Reproduzierbarkeit
Möglicher Verstoß gegen ethische Grundsätze:
- Patienten und gesunde Freiwillige unterziehen sich Forschung, die möglicherweise nur von begrenztem klinischen Nutzen ist.
- Unnötige Opferung von Versuchstieren
Verwirrung bei der Interpretation von Studien mit geringen Fallzahlen, welche dieselbe Methodik verwenden, aber zu widersprüchlichen Ergebnissen führen

Übermaß an Teststärke

Studien mit zu hoher Power können aus den folgenden Gründen ebenfalls problematisch sein:

Sie können statistische Signifikanz bei jedoch unwichtiger/irrelevanter klinischer Relevanz zeigen.
Vergeudung von Ressourcen
Kann aufgrund der Einbeziehung von Menschen und/oder Labortieren in unnötige Versuche unmoralisch sein

Merkmale

Die statistische Power ist nur dann relevant, wenn die Nullhypothese abgelehnt werden kann. Sie wird durch die folgenden Variablen bestimmt:

Alpha (α)
Beta (β)
Standardabweichung der Population (s)
Stichprobenumfang n
Effektstärke (ES)

Alpha

Alpha (α) bezeichnet die Wahrscheinlichkeit, die Nullhypothese abzulehnen, obwohl sie richtig ist. Sie wird auch als Fehler erster Art bezeichnet.

α = 1 – Spezifität = „p-Wert“ = das „Signifikanzniveau“ bzw. Irrtumswahrscheinlichkeit.
α = Falsch-positive Ergebnisse / (Falsch-Positive + Richtig-Negative)
Bei einem Signifikanzniveau (α) von 0,05 können 5 % der Stichproben einen falschen signifikanten Unterschied – d.h. einen, der nur auf Zufall beruht – aufweisen.
Die meisten Studien verwenden einen Grenzwert von α = 5 % = 0,05.

Beta

Beta (β) ist die Wahrscheinlichkeit, die Nullhypothese beizubehalten, obwohl sie falsch ist. Sie heißt auch Fehler zweiter Art.

β = 1 – Sensitivität
β = Falsch-negative Ergebnisse / (Falsch-Negative + Richtig-Positive)
β steht in direktem Zusammenhang mit der statistischen Power des Tests (T = 1 – β).
Bei einem β-Niveau von 0,2 kann bei 20 % der Stichproben ein echter signifikanter Unterschied übersehen werden.
Die meisten Studien verwenden einen β-Grenzwert von 20 % = 0,2.
Im Gegensatz zu Alpha existiert ein unterschiedlicher β-Wert für jeden unterschiedlichen Mittelwert der Alternativhypothese. Somit hängt Beta sowohl von dem durch α festgelegten Grenzwert als auch von dem Mittelwert der Alternativhypothese ab.

Verhältnis zwischen Alpha und Beta

Das Verhältnis zwischen Alpha und Beta wird häufig in Diagrammen dargestellt, die folgende Elemente enthalten:

Zwei normalverteilte Populationen:
- Kontrollgruppe
- Versuchsgruppe (die einen statistisch signifikanten, unterschiedlichen Mittelwert aufweisen kann)
H0: Nullhypothese. Sie besagt, dass es nur einen wahren Mittelwert (der Kontrollgruppe) gibt und dass jede Abweichung in der Versuchsgruppe nur auf Zufallsphänomene zurückzuführen ist.
H1: Alternativhypothese, d. h. eine Aussage, die der Nullhypothese direkt widerspricht, indem sie besagt, dass der tatsächliche Wert eines Parameters kleiner oder größer ist als der in der Nullhypothese angegebene Wert
Alpha (α): falsch-positiver Bereich (in der Regel als zweiseitiger Hypothesentest dargestellt)

Diagramm von 2 normalisierten Populationen — Verhältnis zwischen Alpha und Beta:
Dieses Diagramm stellt zwei normalverteilte Populationen dar: eine Kontrollgruppe (grün) und eine Versuchsgruppe (lila) mit einem statistisch signifikant unterschiedlichen Mittelwert. H0 ist die Nullhypothese.
α = falsch-positiver Bereich, dargestellt in einem einseitigen Hypothesentest.
Beachten Sie das umgekehrte Verhältnis zwischen α und β.
Bild von Lecturio. Lizenz: CC BY-NC-SA 4.0

Es besteht ein umgekehrtes Verhältnis zwischen α und β. Wenn β verringert wird,

Vergrößert sich der α-Bereich.
Nimmt die Zahl falsch-negativer Ergebnisse bzw. der Fehler zweiter Art ab.
Nimmt die Zahl falsch positiver Ergebnisse bzw. der Fehler erster Art zu.

Das umgekehrte Verhältnis von α und β lässt sich auch in einer 2×2-Kontingenztafel erkennen, in der die positiven und negativen Ergebnisse der Realität mit denen einer Studie verglichen werden:

	Positive Ergebnisse der Realität	Negative Ergebnisse der Realität
Positive Ergebnisse der Studie	Richtig-positiv (Power, 1 – β)	Falsch-positiv (Fehler 1. Art, α)
Negative Ergebnisse der Studie	Falsch-pegativ (Fehler 2. Art, β)	Richtig-negativ

Standardabweichung der Population (s)

Die Standardabweichung s ist ein Maß für die Streuung von Werten im Verhältnis zum Mittelwert.

Sie ergibt sich aus der Wurzel der Varianz V. Die Varianz wiederum errechnet sich aus dem Durchschnitt der quadrierten Abweichungen vom Mittelwert.
Je höher die Standardabweichung, desto mehr Patienten werden in einer Stichprobe benötigt, um einen statistisch signifikanten Unterschied nachzuweisen.

Stichprobenumfang n

Der Stichprobenumfang entspricht der Anzahl von Messwerten in einer Stichprobe, bzw. der Fallzahl einer klinischen Studie.

Eine größere Stichprobe repräsentiert die Grundgesamtheit besser, wodurch sich die Aussagekraft des Tests erhöht.
n ist der am häufigsten verwendete Parameter zur Erhöhung der Power einer Studie.

Für einen zweiseitigen t-Test mit zwei Stichproben und einem Signifikanzniveau α von 0,05 ergibt die nachstehende einfache Formel den ungefähren Stichprobenumfang, der für eine statistische Power von 80 % (β = 0,2) erforderlich ist:

$$ n = \frac{16s^{2}}{d^{2}} $$

wobei n der Stichprobenumfang, s die Standardabweichung (die in jeder Gruppe als gleich angenommen wird) und d der zu ermittelnde Behandlungsunterschied sind. Die vom Urheber der Formel, Robert Lehr, vorgeschlagene Eselsbrücke lautet „16 s-Quadrat durch d-Quadrat“. (Anmerkung: „s-Quadrat“ ist auch als Varianz bekannt).

Beispiele:

Ermitteln Sie die ungefähre Anzahl von Versuchspersonen mit hoch-normalem arteriellen Blutdruck (systolisch 130-139 mmHg oder diastolisch 85-89 mmHg), die erforderlich ist, um mithilfe eines zweiseitigen t-Tests mit zwei Stichproben (α = 0,05) einen Unterschied von 15 mmHg im diastolischen Blutdruck zwischen den Behandlungen A und B zu erkennen. Die erwartete Standardabweichung beträgt für jede Gruppe 15 mmHg.
Antwort:
Der ungefähre Stichprobenumfang n = „16 s-Quadrat durch d-Quadrat“ = 16 x 15² / 15² = 16 x 225 / 225 = 16 Personen in jeder Gruppe. Beachten Sie, dass eine der „Behandlungen“ in der Regel als Kontrollgruppe festgelegt wird.

Jetzt andersherum: In zwei Gruppen mit jeweils 16 Menschen, die einen hoch-normalen arteriellen Blutdruck aufwiesen, wurde ein Behandlungsunterschied von 15 mmHg festgestellt, nachdem die Teilnehmenden in jeder Gruppe mit zwei verschiedenen Medikamenten behandelt wurden.
Ist die Fallzahl ausreichend, um einen signifikanten Unterschied festzustellen? (Wir legen α auf 5 % und β auf 0,2 fest.)
Antwort:
n = 16 x 15² / 15² = 16 Personen in jeder Gruppe. Ja, die Fallzahl war also ausreichend.
Welche ungefähre Anzahl von Versuchspersonen wäre für Frage 1 erforderlich, wenn die Studiendesigner einen Unterschied von 7,5 mmHg anstelle 15 mmHg nachweisen wöllten – vorausgesetzt, alle anderen Parameter blieben gleich?
Antwort:
n = 16 x 15² / 7,5²= 16 x 225 / 56,25 = 64 Personen in jeder Gruppe
Beachten Sie: Aus diesem letzten Beispiel geht hervor, dass man die vierfache Fallzahl benötigt, um einen halb so großen Behandlungseffekt festzustellen. Dies wird auch durch die o. g. Formel verdeutlicht.

Effektstärke der Behandlung

Die Effektstärke ist der standardisierte Unterschied der Mittelwerte zweier Gruppen. Dies entspricht genau dem „Z-Wert“ einer Standardnormalverteilung.

Wenn der Unterschied zwischen den beiden Behandlungen gering ist, werden mehr Versuchspersonen benötigt, um einen Unterschied festzustellen.
Andere Situationen mit Effektstärken:
- Korrelation zweier Variablen
- Regressionskoeffizient in einer Regressionsanalyse
- Das Risiko („Baseline-Inzidenz“) eines bestimmten Ereignisses (z. B. Schlaganfall)

Berechnung der Effektstärke mittels Cohen’s d:

Cohen’s d ist die gängigste (aber eine unvollkommene) Methode zur Berechnung der Effektstärke. Cohen’s d entspricht der Differenz der Mittelwerte zweier Gruppen geteilt durch die gepoolten Standardabweichungen. Für die Standardabweichungen s gelten:

$$ {s = \sqrt{\frac{(s1^{2} + s2^{2})}{2}}} $$

Wenn die Standardabweichungen in jeder Gruppe gleich sind, dann ist d = Differenz der Mittelwerte / Standardabweichung. Wenn beispielsweise die Differenz 150 und die Standardabweichung 50 beträgt, dann ist d = 150/50 = 3. Dies ist eine hohe Effektstärke.

Interpretation von Cohen’s d:

Kleine Effektstärke: Bei d = 0,2 liegt die Punktzahl oder der Wert der durchschnittlichen Versuchsperson in der Versuchsgruppe 0,2 Standardabweichungen über dem Wert der durchschnittlichen Versuchsperson in der Kontrollgruppe und übersteigt damit die Werte von 58 % der Kontrollgruppe.
Mittlere ES: Bei d = 0,5 liegt der Wert der durchschnittlichen Versuchsperson in der Versuchsgruppe 0,5 Standardabweichungen über dem Wert der durchschnittlichen Versuchsperson in der Kontrollgruppe und übersteigt damit die Werte von 69 % der Kontrollgruppe.
Große ES: Bei d = 0,8 liegt der Wert der durchschnittlichen Versuchsperson in der Versuchsgruppe 0,8 Standardabweichungen über dem Wert der durchschnittlichen Versuchsperson in der Kontrollgruppe und übersteigt die Werte von 79 % der Kontrollgruppe.

Zusammenfassung der Merkmale

Zusammenfassend lässt sich sagen, dass die Power bzw. Teststärke tendenziell größer ist bei:

Großer Effektstärke (d. h. großem Unterschied zwischen den Gruppen)
Großem Stichprobenumfang bzw. großer Fallzahl
Geringen Standardabweichungen der Populationen
Höherem Signifikanzniveau α (z. B. 0,05 statt 0,01)
Geringerem β-Grenzwert (z. B. 0,1 statt 0,2)
Verwendung eines einseitigen Tests anstatt eines Zweiseitigen
- Ein einseitiger Test setzt die Verwendung einer Richtungshypothese voraus, d. h. die Untersuchung einer Fragestellung in Bezug auf eine bestimmte Richtung wie „Größer als“ oder „Kleiner als“. Er kann jedoch keinen Unterschied feststellen, der in die entgegengesetzte Richtung geht.
- Diese Art von Test wird selten verwendet.

Häufige Fehler

Ablehnung einer Nullhypothese (z. B. Annahme eines signifikanten Unterschieds) ohne Berücksichtigung der praktischen/klinischen Bedeutung des Studienergebnisses
Annahme einer Nullhypothese bei einem NICHT statistisch signifikanten Unterschied ohne Berücksichtigung der Power bzw. Teststärke
Überschätzung der Aussagekraft einer Studie mit geringer Power
Vernachlässigung der Berechnung der Power oder des erforderlichen Stichprobenumfangs
Keine Korrektur für Mehrfachinferenz bei der Berechnung der Power:
- Unter Mehrfachinferenz versteht man die Durchführung von mehr als einem statistisch schließenden Test mit demselben Datensatz.
- Die Durchführung mehrerer Tests mit demselben Datensatz im selben Stadium der Analyse erhöht die Wahrscheinlichkeit, mindestens ein ungültiges Ergebnis zu erhalten.
Verwendung starrer Effektstärken (z. B. die kleinen, mittleren und großen Effektstärken von Cohen’s d), anstatt die Details des Versuchsplans selbst zu berücksichtigen. Ein Versuch kann manchmal eine kleine Cohen-Bewertung aufweisen, aber an sich ein besseres Experiment sein.
Verwechslung von retrospektiver Teststärke (Berechnung nach Datenerhebung) und prospektiver Teststärke

Berechnung

Eine Power-Analyse beantwortet zwei wichtige Fragen:

Wie viel Power wird als adäquat angesehen?
Wie groß ist der benötigte Stichprobenumfang?

Wie viel Power wird als adäquat angesehen?

Der traditionelle Mindestwert für die Power beträgt 80 % (oder 0,80) – ähnlich des willkürlichen Werts von 5 % (oder 0,05) für α bzw. den p-Wert.

Eine 80%ige Power bedeutet, dass die Wahrscheinlichkeit eines Fehlers zweiter Art (falsch-negativ) bei 20 % liegt.
Dieses akzeptable Niveau von 20 % für Fehler zweiter Art ist viermal so hoch wie die 5 %ige Wahrscheinlichkeit eines Fehlers erster Art (falsch-positiv, Standard-Signifikanzniveau).
Fehler erster Art werden üblicherweise als kritischer angesehen als Fehler zweiter Art.

Eine Teststärke von 90 % wäre noch besser. Auch wenn dies mehr Ressourcen erfordert, sollte man bedenken, dass es noch mehr Ressourcen kosten würde, die Studie zu einem späteren Zeitpunkt zu wiederholen.

Wie groß ist der benötigte Stichprobenumfang?

Groß genug, um einen Effekt von praktischer, wissenschaftlicher Bedeutung festzustellen. Die Wahrscheinlichkeit, eine falsche Nullhypothese zu verwerfen, muss hoch genug sein.
Bevor ein Experiment begonnen wird, muss eine Power-Analyse durchgeführt werden.
- Einem abgeschlossenen Experiment, das einen nahezu signifikanten p-Wert aufwies, sollte man keine weiteren Versuchspersonen hinzufügen.
- Diese Praxis ist verpönt und wird als „p-Hacking“ bezeichnet.
Berechnung eines ausreichenden Stichprobenumfangs für einen t-Test für unabhängige Stichproben:
- Schätzen Sie (anhand einer Pilotstudie oder historischen Daten) die Mittelwerte beider Gruppen oder die Differenz zwischen den Mittelwerten. Es sollte sich um die kleinste Effektstärke handeln, die von wissenschaftlichem Interesse ist.
- Schätzen Sie (anhand einer Pilotstudie oder historischen Daten) die Standardabweichungen der beiden Gruppen.
- Entscheiden Sie, welche α– (z. B. 0,05) und β-Werte (z. B. 0,2) gewünscht sind.
- Geben Sie diese Werte (α, β, die beiden geschätzten Mittelwerte und die geschätzte gepoolten Standardabweichungen) in einen seriösen Online-Rechner ein, um den Stichprobenumfang zu erhalten.
- Die Berechnungen sind recht komplex und werden immer mithilfe eines Computers durchgeführt.
- Der ungefähre Stichprobenumfang lässt sich wie oben beschrieben mit der Formel n = 16s² / d² berechnen.

Beispiele für Power-Analysen

Fall 1

Ein Tomatenzüchter beteiligt sich an einem Versuch mit einem neuen Dünger namens „Grow-A-Lot“. Es soll bestimmt werden, ob mit dem neuen Dünger mehr Tomaten pro Pflanze wachsen als mit ungedüngten Pflanzen. Der Züchter nimmt 200 Tomatensamen aus einem Eimer mit seinem üblichen Saatgut und teilt sie in zwei Gruppen auf:

Eine Gruppe mit 100 Samen, die keinen Dünger erhalten (= Kontrollgruppe)
Eine Gruppe mit 100 Samen, die gedüngt werden (= Versuchsgruppe)

Die Nullhypothese lautet, dass beide Gruppen von Pflanzen die gleiche Anzahl von Tomaten pro Pflanze produzieren. Die Alternativhypothese lautet, dass die Pflanzen, die den Dünger erhalten, eine andere Anzahl von Tomaten hervorbringen.

Versuch 1 mit großen Stichprobenumfängen:

Die gedüngte Gruppe produzierte durchschnittlich doppelt so viele Tomaten pro Pflanze (300) wie die Kontrollgruppe (150). Es gibt auch eine kleine Überlappung, da einige Pflanzen in der Kontrollgruppe besser abschnitten als die anderen in ihrer Gruppe, und einige Pflanzen in der Versuchsgruppe schlechter abschnitten. Ein Blick auf das Diagramm reicht aus, um festzustellen, dass es offenbar einen Unterschied gibt, aber ein t-Test wurde durchgeführt, um zu bestätigen, dass der Unterschied statistisch signifikant (mit einem sehr kleinen p-Wert) ist.

Statistische Leistung Versuch 1 — Versuch 1 zu Fall 1: Diagramm zur Veranschaulichung des Einflusses von „Grow-A-Lot“ mit großer Effektstärke, großen Standardabweichungen (jeweils 50), Mittelwerten von 150 bzw. 300 und großen Stichprobenumfängen von 100.

Grün: Kontrollgruppe
Blau: Versuchsgruppe

Die 100 Pflanzen der Kontrollgruppe produzierten durchschnittlich 150 Tomaten pro Pflanze. Die 100 Pflanzen, die gedüngt wurden, produzierten mit durchschnittlich 300 Tomaten pro Pflanze deutlich mehr Tomaten. Das Ergebnis ist bei einem p-Wert von < 0,05 signifikant, sodass die Nullhypothese verworfen wird.
Bild von Lecturio. Lizenz: CC BY-NC-SA 4.0

Selbst wenn das Experiment 1000 Mal wiederholt würde, wäre es äußerst unwahrscheinlich, dass der Züchter zufällig eine Saatgutmenge aus der Überlappungsregion auswählt und damit ein anderes Ergebnis erhält. Allein aufgrund des hohen Stichprobenumfangs erhält diese Studie eine große Menge an statistischer Power, da es äußerst unwahrscheinlich ist, dass eine Wiederholung des Versuchs ein anderes Ergebnis liefern würde.

Versuch 2 mit kleinen Stichprobenumfängen:

Das Experiment würde auch bei viel weniger Versuchssamen eine große Power beibehalten, und fast alle t-Tests würden korrekt einen signifikanten (kleinen) p-Wert ergeben.

Statistische Leistung Versuch 2 — Versuch 2 zu Fall 1: Diagramm zur Veranschaulichung des Einflusses von „Grow-A-Lot“ mit großer Effektstärke, großen Standardabweichungen (jeweils 50), Mittelwerten von 150 bzw. 300 und kleinen Stichprobenumfängen von 30.

Grün: Kontrollgruppe
Blau: Versuchsgruppe

Aufgrund der großen Effektstärke (Differenz der Mittelwerte) beobachten wir nach wie vor einen signifikanten Unterschied, trotz des geringen Stichprobenumfangs. p < 0,05, also wird die Nullhypothese abgelehnt.
Bild von Lecturio. Lizenz: CC BY-NC-SA 4.0

Fall 2

Es wird ein anderer Dünger verwendet (Dünger „Grow-A-Little“), welcher eine viel geringere Wirkung hat und durchschnittlich nur zehn zusätzliche Tomaten pro Pflanze hervorbringt. Es gibt eine größere Überlappung der Tomatenproduktion pro Pflanze zwischen der Versuchs- und der Kontrollgruppe, die nur bei Verwendung größerer Stichproben festgestellt werden kann.

Versuch 3 mit großen Stichprobenumfängen und großen Standardabweichungen:

Die Stichprobenumfänge sind groß genug, um die kleine Effektstärke auszugleichen, sodass der Unterschied bei einem p-Wert < 0,05 statistisch signifikant ist. Beachten Sie jedoch: Auch wenn der Unterschied statistisch signifikant ist, ist er für den Züchter möglicherweise nicht von praktischer oder relevanter Bedeutung.

Versuchsdiagramm 3 — Versuch 3 zu Fall 2: Diagramm zur Veranschaulichung des Einflusses von „Grow-A-Little“ mit kleiner Effektstärke, großen Standardabweichungen (jeweils 50), Mittelwerten von 150 bzw. 165 und einem großen Stichprobenumfang von 100.

Grün: Kontrollgruppe
Blau: Versuchsgruppe.

Der Unterschied ist bei einem p-Wert von < 0,05 statistisch signifikant, da die Stichprobenumfänge groß genug waren, um die geringe Effektstärke auszugleichen. Beachten Sie, dass der geringe Unterschied, auch wenn er statistisch signifikant ist, für den Züchter möglicherweise nicht von praktischer oder relevanter Bedeutung ist.
Bild von Lecturio. Lizenz: CC BY-NC-SA 4.0

Versuch 4 mit kleinen Stichprobenumfängen und großen Standardabweichungen:

Aufgrund geringer Stichprobenumfänge wird bei einem p-Wert < 0,05 kein statistisch signifikanter Unterschied festgestellt. Die Nullhypothese kann also nicht verworfen werden, weil weder Effektstärke noch Stichprobenumfänge der Studie ausreichend waren.

Versuchsdiagramm 4 — Versuch 4 zu Fall 2: Diagramm zur Veranschaulichung des Einflusses von „Grow-A-Little“ mit kleiner Effektstärke, großen Standardabweichungen (jeweils 50), Mittelwerten von 150 bzw. 165 und kleinen Stichprobenumfängen von 30.

Grün: Kontrollgruppe
Blau: Versuchsgruppe

Aufgrund geringer Stichprobenumfänge wird bei einem p-Wert < 0,05 kein statistisch signifikanter Unterschied festgestellt. Die Nullhypothese kann also nicht verworfen werden, weil weder Effektstärke noch Stichprobenumfänge der Studie ausreichend waren.
Bild von Lecturio. Lizenz: CC BY-NC-SA 4.0

Versuch 5 mit kleinen Stichprobenumfängen und kleinen Standardabweichungen:

Aufgrund einer kleinen Standardabweichung bei beiden Populationen ist der Unterschied bei einem p-Wert von 0,05 statistisch signifikant. Die Standardabweichung ist in der Regel ein fester Parameter in einer Grundgesamtheit und kann nicht verändert werden, aber der gleiche Effekt kann letztendlich durch eine Vergrößerung des Stichprobenumfangs erzielt werden. Durch eine Erhöhung wird die Auswirkung einer großen, aber unveränderlichen Standardabweichung verringert, sodass kleinere Unterschiede zwischen den Gruppen festgestellt werden können.

Versuchsdiagramm 5 — Versuch 5 zu Fall 2: Diagramm zur Veranschaulichung des Einflusses von „Grow-A-Little“ mit kleiner Effektstärke, kleinen Standardabweichungen von jeweils 10, Mittelwerten von 150 bzw. 165 und kleinen Stichprobenumfängen von 30.

Grün: Kontrollgruppe
Blau: Versuchsgruppe

Der Unterschied ist nun bei einem p-Wert von 0,05 statistisch signifikant aufgrund der kleinen Standardabweichungen.
Bild von Lecturio. Lizenz: CC BY-NC-SA 4.0

Übungsaufgaben

Die mit der Planung einer randomisierten klinischen Studie befassten Forschenden wählen einen Stichprobenumfang, der eine 90%ige Power für die Feststellung eines 20%igen Unterschieds zwischen der Kontroll- und der Versuchsgruppe bei einem Signifikanzniveau von 5 % (zweiseitig) hätte.

Frage 1

Wenn es in Wahrheit gar keinen Unterschied zwischen den Mittelwerten gäbe, wie groß ist dann die Chance, dass die Studie trotzdem einen statistisch signifikanten Unterschied findet? Wie wird dieser Fehler genannt?

Antwort: Ein Fehler erster Art (falsch-positiv). Dies ist eigentlich nur eine Frage der Terminologie und ist typisch für die Art von Fragen, die in Prüfungen vorkommen, wobei hier die Power zur Ablenkung erwähnt wird. Rufen Sie sich Abbildung 1 ins Gedächtnis: Wenn es keinen Unterschied zwischen den beiden Gruppen gibt, gibt es nur eine glockenförmige Kurve, wobei der α-Grenzwert die falsch-positiven Ergebnisse beschreibt. Somit beträgt die Chance, einen statistisch signifikanten Unterschied zu finden, 5 %, gleichbedeutend mit einem Fehler erster Art, da jede Versuchsperson mit einem Wert im α-Bereich zur gleichen Grundgesamtheit gehört.

Frage 2

Nimmt die Power zu/ab/bleibt sie unverändert, wenn der β-Wert gesenkt wird?

Antwort: Die Power steigt, wenn β verringert wird, da die Power = 1 – β beträgt (siehe Abbildung 1).

Frage 3

Nimmt die Power zu/ab/bleibt sie unverändert, wenn α erhöht wird?

Antwort: Die Power nimmt zu, wenn Alpha erhöht wird. Dies erhöht aber auch die Wahrscheinlichkeit falsch-positiver Ergebnisse und ist daher nicht primär geeignet, die Teststärke zu erhöhen. Anhand von Abbildung 1 können Sie die Beziehung zwischen α und der Power erkennen. In einer Prüfung wird häufig eine 2×2-Kontingenztafel von Realität und Studien-/Testergebnissen verwendet, um diese Frage zu formulieren. Es ist wichtig zu verstehen, wie man Fehler erster und zweiter Art berechnet.

Frage 4

Vergrößert/verringert/verändert sich die Power, wenn die Differenz zwischen dem Mittelwert der Versuchsgruppe und dem der Kontrollgruppe zunimmt?

Antwort: Die Power steigt, wenn die Differenz der Mittelwerte zunimmt. Dies ist eine andere Art der Erhöhung der Effektstärke, da es weniger Überlappung zwischen den beiden Verteilungen gibt (siehe Abbildung 1).

Frage 5

Vergrößert/verkleinert/verändert sich β, wenn die Differenz zwischen dem Mittelwert der Versuchsgruppe und dem der Kontrollgruppe zunimmt?

Antwort: β sinkt, wenn der Mittelwertunterschied zunimmt, da es weniger Überlappung zwischen den beiden Populationen gibt (siehe Abbildung 1).

Quellen

Brosteanu, O., Engel C., Forberg J., Gelbrich G., Hasenclever D., Hentschel B., Löffler M., Röder I., Schuster E., Wicklein B., Ziepert M. (2008). Methodensammlung zur Auswertung klinischer und epidemiologischer Daten. Skriptenheft für Medizinstudenten
Peirce, C.S. (1878). Illustrations of the Logic of Science VI. Popular Science Monthly. Vol. 13, August 1878. Zugriff am 1. März 2021, from https://en.wikisource.org/w/index.php?oldid=3592335
Clinical tools and calculators for medical professionals—ClinCalc. Zugriff am 19. März 2021, from https://clincalc.com/
Power/sample size calculator. Retrieved March 20, 2021, from https://www.stat.ubc.ca/~rollin/stats/ssize/n2.html
Interactive statistical calculation pages. Retrieved March 20, 2021, from https://statpages.info/#Power
Statistical power calculator using average values. SPH Analytics. Zugriff am 20. März 2021, from https://www.sphanalytics.com/statistical-power-calculator-using-average-values/
Otte, W.M., Tijdink, J.K., Weerheim, P.L., Lamberink, H.J., Vinkers, C.H. (2018). Adequate statistical power in clinical trials is associated with the combination of a male first author and a female last author. eLife, 7:e34412. https://doi.org/10.7554/eLife.34412
Bland, M. (2015). An Introduction to Medical Statistics. 4th ed., pp. 295–304.
Ellis, P.D. (2010). The Essential Guide to Effect Sizes. Statistical Power, Meta-Analysis, and the Interpretation of Research Results. Pp. 46–86.
Walters, S.J., Campbell, M.J., Machin, D. (2020). Medical Statistics, A Textbook for the Health Sciences. 5th ed, pp. 40–48, 99–133.
Citrome, L., Ketter, T.A. (2013). When does a difference make a difference? Interpretation of number needed to treat, number needed to harm, and likelihood to be helped or harmed. International Journal of Clinical Practice, 67(5):407–411. https://doi.org/https://doi.org/10.1111/ijcp.12142
Smith, M.K. (2012). Common mistakes involving power. Zugriff am 21. März 2021, from https://web.ma.utexas.edu/users/mks/statmistakes/PowerMistakes.html
Ioannidis, J.P., Greenland, S., Hlatky, M.A., et al. (2014). Increasing value and reducing waste in research design, conduct, and analysis. Lancet, 383(9912):166–175.
Coe, R. (2002). It’s the effect size, stupid: What effect size is and why it is important.
Allen, J.C. (2011). Sample size calculation for two independent groups: A useful rule of thumb. Proceedings of Singapore Healthcare, 20(2):138–140. https://doi.org/10.1177/201010581102000213
Lehr, R. (1992). Sixteen S-squared over D-squared: A relation for crude sample size estimates. Statistics in Medicine, 11(8), 1099–1102. https://doi.org/10.1002/sim.4780110811