Medikament X hilft hier, diese Therapie dort... von Patient zu Patient werden Erfahrungswerte oft weitergegeben. Nur weil aber z. B. ein Medikament bei zehn Patienten wirkt, besteht noch lange keine Allgemeingültigkeit. In der empirischen Forschungsmethodik muss jede Hypothese durch Studien untermauert werden: Welche Messmethoden gibt es? Anhand welcher Skalen wird gemessen? Was ist der Standardmessfehler und wie erreicht ein Test höchstmögliche Validität? Einmal verstanden, wie ein wissenschaftliches Experiment abläuft, sind Sie optimal gerüstet für Stolperfallen im Physikum und Ihre vielleicht anstehende Doktorarbeit.

Tipp: Keine Lust zu lesen? Dann starten Sie doch einfach kostenlos unseren Online-Kurs zur medizinischen Psychologie und Soziologie.

dies ist ein tisch mit stuehlen


Philosophie-Exkurs: Wissenschaftstheorie nach Karl Popper

Der österreichische Philosoph Karl Popper (1902-1994) entwickelte die Wissenschaftstheorie des Kritischen Rationalismus. Seine Antwort auf die Frage nach den Grenzen der empirischen Forschung heißt Falsifikation. Falsifizierbarkeit soll empirische von nichtempirischen Aussagen abgrenzen.

Eine empirische Theorie muss demnach mindestens einen Beobachtungssatz enthalten, der logisch zu einem Widerspruch führen kann. (Eines der wichtigsten Merkmale einer wissenschaftlichen Hypothese ist die Falsifizierbarkeit – siehe Tabelle zu den Merkmalen wissenschaftlicher Hypothesen). Es folgt ein Beispiel:

  • „Morgen gibt es Schnee.“ – falsifizierbar
  • „Morgen gibt es Schnee oder es schneit nicht.“ – nicht falsifizierbar, sondern tautologisch (= aus logischen Gründen immer wahr).

Wissenschaft beginnt nie mit Beobachtungen (induktiv), sondern immer mit Vermutungen (deduktiv).

Popper: Beobachtungen können zwar nie die Wahrheit wissenschaftlicher Hypothesen begründen (Verifikation), wohl aber ihre Falschheit (Falsifikation).

Beispiel: Die Beobachtung eines schwarzen Schwans falsifiziert die Hypothese ein für alle mal, dass alle Schwäne weiß sind.

Wie läuft eine wissenschaftliche Untersuchung ab?

Die folgende Tabelle gibt einen groben Überblick darüber, wie eine wissenschaftliche Untersuchung abläuft. Im Folgenden wird auf die einzelnen Themenbereiche von der Hypothesenbildung bis zu den Untersuchungskriterien ausführlich eingegangen:

  • Hypothesenbildung: Was ist die Fragestellung? Wie lautet die Hypothese?
  • Operationalisierung: beschreibt die „Messbarmachung“, wie kann das theoretische Konstrukt messbar gemacht werden?
  • Untersuchungskriterien: Gütekriterien eines psych. Tests: Objektivität, Reliabilität, Validität
  • Untersuchungsplanung: Art der Untersuchung und Ablauf muss genau geplant werden
  • Methoden der Datengewinnung: psychologische Tests, Interviews, systematische Beobachtungen, Registrieren psychophysiologischer Prozesse
  • Datenauswertung: Auswertung mithilfe von statistischen Tests
  • Ergebnisbewertung: Wiederholungen, Generalisierbarkeit muss gegeben sein

Hypothesen- und Theoriebildung

Werden im Alltag die Begriffe Hypothese und Theorie oft synonym gebraucht, macht die Wissenschaft signifikante Unterschiede.

das sind die 95 thesen von martin luther

Bild: “Luther’s 95 Theses” von Keren Tan. Lizenz: CC BY-SA 2.0

Hypothesen sind vorläufige Antworten auf Forschungsfragen, also wissenschaftliche Annahmen über den Zusammenhang von Variablen, die empirisch geprüft werden können. Beim induktiven Vorgehen werden aus einzelnen Beobachtungen allgemeine Aussagen abgeleitet. Werden Hypothesen hinreichend gesichert und bilden ein System, bezeichnet man das als Theorie.

Eine Theorie gründet sich auf Hypothesen (induktives Vorgehen) und ist Grundlage für die Ableitung von Hypothesen (deduktives Vorgehen).

Klinik-Ausflug: Sie als Arzt werden in der praktischen Arbeit jeden Tag Hypothesen aufstellen, Verdachtsdiagnosen. Sie versuchen mittels diagnostischer Methoden und/oder Beobachtung der Wirkung von Therapien diese Hypothese zu sichern oder durch neue Informationen neue Hypothesen aufzustellen oder zu modifizieren.

Wichtige Merkmale wissenschaftlicher Hypothesen (nach Bortz & Döring, 2005):

  1. Empirische Untersuchbarkeit: Wissenschaftliche Hypothesen müssen reale Sachverhalte beinhalten, die empirisch untersuchbar sind.
  2. Konditionalsatzformulierung: Wissenschaftlichen Hypothesen müssen zumindest implizit die Form eines sinnvollen Wenn-Dann-Satzes oder eines Je-Desto-Satzes zugrunde liegen.
  3. Generalisierbarkeit und Allgemeinheitsgrad: Wissenschaftliche Hypothesen müssen Aussagen über den Einzelfall oder ein singuläres Ereignis hinaus machen.
  4. Falsifizierbarkeit: Wissenschaftliche Hypothesen müssen widerlegbar (falsifizierbar) sein und nicht so formuliert, dass sie immer gelten können (Tautologien).

(Quelle: TU Dresden elearning)

Hypothesenformen:

  • Probabilistische Hypothesen: Sie stellen die häufigsten Hypothesen in der psychologischen Forschung dar. Es handelt sich um Annahmen über Wahrscheinlichkeiten, mit denen ein Sachverhalt unter bestimmten Bedingungen eintritt. Sie enthalten Aussagen über Korrelationen und Durchschnitte, mit denen die Gesamtheit von Ereignissen gekennzeichnet ist. Beispiel: Rauchen ist ein Risikofaktor für Herz-Kreislauf-Erkrankungen.
  • Deterministische Hypothesen: Diese Hypothesen gelten zeitlich und räumlich unbegrenzt. Sie stellen absolute Tatsachenbehauptungen dar. Beispiel: Wenn ich auf der Erde einen Gegenstand fallen lasse, fällt er nach unten.
  • Unterschiedshypothesen: Sie werden durch einen Häufigkeits- bzw. Mittelwertsvergleich geprüft und behaupten einen Unterschied zwischen mindestens zwei Populationen in Bezug auf eine Variable. Beispiel: Raucher haben ein höheres Lungenkrebsrisiko als Nichtraucher.
  • Zusammenhangshypothesen: Hier wird der Zusammenhang zwischen mindestens zwei Variablen behauptet. Beispiel: Die Ernährung steht mit der Schuldbildung in Zusammenhang.
  • Nullhypothese (H0) und Alternativhypothese (H1): Die Alternativhypothese möchte vom Forscher belegt werden. Die entgegengesetzte Hypothese, die Nullhypothese, wird aufgestellt. Die Formulierung dieser Nullhypothese stellt das Prinzip der Falsifikation dar.

Alpha-Fehler und Beta-Fehler

Diese zwei Arten von Fehlern gibt es:

Alpha-Fehler (Fehler 1. Art) Beta-Fehler (Fehler 2. Art)
H0 wird verworfen, obwohl diese Hypothese richtig war H1 wird verworfen, obwohl diese Hypothese richtig war

Konstrukt und Operationalisierung: Wie wird das theoretische Konstrukt messbar gemacht?

Zollstock

Die Herzfrequenz zu messen ist sehr viel einfacher als das Denken oder unsere Gefühle zu ermitteln. Durch eine Operationalisierung sollen nicht direkt beobachtbare Phänomene für die Messung zugänglich gemacht werden. Um Konstrukte zu untersuchen, braucht man Variablen.

Variablen sind Eigenschaftsbenennungen der zu untersuchenden Merkmale (z.B.: männlich-weiblich). Das Gegenteil der Variable ist die Konstante.

Skalierung und Indexbildung

PrüfungsTipp: Klassifikationen, Definitionen und Skalen sind höchst beliebte Prüfungsthemen – hier hilft leider nur sie auswendig zu lernen.

Skalen sind Bezugssysteme für die Messung der Ausprägung von Merkmalen (qualitativ „entweder-oder“ oder quantitativ „Abstufungen“). Wichtige Begriffe zu Skalen gibt es für Sie in der folgenden Tabelle im Überblick:

Begriff: Beschreibung: Beispiel:
Rangordnung Personen werden in Bezug auf das Merkmal in eine hierarchische Reihenfolge gebracht  –
Paarvergleich Eine Aufforderung Paarkombinationen zu vergleichen Brillengläservergleich
Rating-Skala Abstufungen zwischen den Extrempolen Zufriedenheitsskala (sehr zufrieden bis total unzufrieden mit)
Likert-Skala Ratingskala mit meist 5 Stufen, der Gesamttestwert wird am Schluss addiert Angstskalen
Polaritätsprofil Messung der Assoziationen von Gegenstandspaaren Erfassung von Stereotypen und Einstellungen (z. B. zu Homosexualität)
Visuelle Analogskalen Likert-Skalen mit einem Kontinuum statt Polen und Abstufungen dazwischen Schmerzskalen
Guttman-Skala Aussagen sind in einer bestimmten Reihenfolge angeordnet (von „normal“ zu extrem“). Wird eine Aussage bejaht, werden normalerweise alle vorherstehenden Aussagen auch bejaht. Trifft dies ein, ist die Guttman-Skala „perfekt“. Angabe des Gewichts: >60kg, >70kg, >80kg usw.

Skalenniveau

MesswinkelIn der Psychologie unterscheidet man vier verschiedene Skalenniveaus. Die Skalen sind ineinander überführbar, jedoch nur von oben nach unten. So abstrakt das alles am Anfang für Sie klingen mag, begegnen Ihnen die verschiedenen Skalen oft im medizinischen Alltag.

 

  • Nominalskala: Niedrigstes Skalenniveau, nur Aussagen zur Gleichheit oder Ungleichheit.
  • Ordinalskala: Objekte werden in eine Rangreihenfolge ohne feste Abstände gebracht, können auch den gleichen Rangplatz einnehmen.
  • Intervallskala: Es bestehen zusätzlich gleiche Abstände zwischen den Rangplätzen und der Nullpunkt kann festgelegt werden.
  • Verhältnisskala (Rationalskala): höchstes Skalenniveau – Aussagen über die Gleichheit/Ungleichheit von Summen, Quotienten, etc. kann getroffen werden. Die Berechnung des geometrischen Mittels ist möglich.

Eine Übersicht mit Beispielen gibt die folgende Tabelle zu den Skalenniveaus:

NONMETRISCHE SKALEN METRISCHE SKALEN
Nominalskala Ordinalskala Intervallskala Verhältnisskala
Datenmerkmale Einfache Zuordnung Rangfolge Gleicher Abstand der Einheiten Absoluter Nullpunkt
Statistische Maßzahlen Modalwert, Häufigkeitsverteilung Zusätzlich: Median, Quartile, Prozentrangwerte, Spannweite Zusätzlich: arithmetisches Mittel, Standardabweichung, Schiefe Zusätzlich: geometrisches Mittel
Zuverlässige statistische Verfahren Chi-Quadrat, Kontingenztafeln Nonparametrische Verfahren Parametrische Verfahren Parametrische Verfahren
Beispiele Geschlecht, Konfession, Familienstand Wettlaufplatzierung, Schulnoten, Bildung Temperatur in °C, Intelligenztestwerte Temperatur nach Kelvin, Zeit, Länge

Quelle: M. Schön (2007): GK1 Medizinische Psychologie und Soziologie, S. 25, Tab. 1.4. Springer Verlag.

Untersuchungskriterien

Was macht einen psychologischen Test aus und nach welchen Gütekriterien wird dieser erstellt? Darauf werden wir in folgendem Abschnitt eingehen. Besonders die Testgütekriterien sind ein beliebtes Thema im Physikum.

Testnormierung

Wie soll ein individueller Testwert beurteilt werden ohne Vergleichsmaßstäbe?

Für die Beurteilung, ob ein Test über-, unter- oder durchschnittlich ausgefallen ist, benötigt man den Mittelwert und die Standardabweichung einer Vergleichspopulation (Normstichprobe). Diese Eichung sollte an einer möglichst großen Stichprobe unter standardisierten Bedingungen durchgeführt werden.

Die mittlere Testleistung der Referenzgruppe ergibt die Norm, der durchschnittlich erzielte Wert ist der Mittelwert, das Maß für die Streuung der Testwerte die Standardabweichung.

Testtheoretische Gütekriterien: Objektivität, Reliabilität und Validität

Die drei wichtigsten Testgütekriterien Objektivität, Reliabilität und Validität bauen aufeinander auf, das heißt ohne Objektivität gibt es keine Reliabilität und ohne Reliabilität keine Validität.

Objektivität – Ist der Test unabhängig vom Testleiter?

Waage der Justizia

Bild: “Authority” von Michael Coghlan. Lizenz: CC BY-SA 2.0

Die subjektiven Einflüsse durch den Testleiter sollen durch eine Standardisierung und geringen Spielraum bei der Auswertung minimiert werden. Der Korrelationskoeffizient gibt an, wie abhängig das Versuchsergebnis vom Versuchsleiter ist.

Beispiel: Denken Sie an das schriftliche Physikum: Schriftliche Fragen und Computer-Auswertung – die Testleiter haben keinen Einfluss auf das Testergebnis. Bedeutend subjektiver ist dagegen die mündliche Prüfung.

Reliabilität – Wie hoch ist die Messgenauigkeit des Tests?

Ein Test ist dann als präzise einzustufen, wenn unter denselben Bedingungen bei derselben Person das identische oder sehr ähnliche Ergebnis herauskommt. Welche Möglichkeiten gibt es, um die Reliabilität eines Tests zu prüfen?

  • Retest-Reliabilität: Der Name sagt es: Wiederholung. Der gleiche Test wird beim gleichen Probanden wiederholt angewendet.
  • Parallel-Reliabilität: Es wird nicht der gleiche Test wiederholt, sondern parallele Formen um Erinnerungseffekte zu vermeiden.
  • Konsistenzanalyse: Der Test wird nur einmalig durchgeführt. Wird der Test in zwei Hälften geteilt und das Ergebnis miteinander verglichen, heißt das Split-Half-Reliabilität. Wird jede einzelne Testaufgabe in Beziehung zu allen übrigen gesetzt, spricht man von innerer Konsistenz.

Eine absolute Messgenauigkeit bei psychologischen Tests ist nicht zu erreichen, man geht von einem Standardmessfehler durch die mangelnde Reliabilität aus. Man berücksichtigt hierbei zwei Größen:

  1. Relationskoeffizient: Maß für die Messgenauigkeit
  2. Standardabweichung: Maß für die Streuung der Testwerte

Man errechnet das Konfidenzintervall: Testwert des Probanden +/- Standardmessfehler = wahrer Wert des Probanden (meist 95%).

Merke: Die Reliabilität eines Tests ist umso besser, je geringer der Standardmessfehler und je enger das Konfidenzintervall ist.

Validität – Misst der Test tatsächlich das zu messende Merkmal?

Man unterscheidet verschiedene Formen der Validität:

  1. Interne Validierung: Der Test wird für sich genommen betrachtet (intern). Die Veränderung der abhängigen Variable ist eindeutig auf die Variation der unabhängigen Variable zurückzuführen. Die Ergebnisse sprechen entweder eindeutig für oder gegen die Hypothese.
  2. Externe Validierung: Hier werden äußere Objekte herangezogen. Die Untersuchungsergebnisse können verallgemeinert und auf andere Situationen/Populationen bezogen werden. Man spricht von diskriminierender Validität, wenn signifikante Unterschiede zwischen den Personengruppen gemacht werden können. Eine prognostische Validität besitzt eine Untersuchung, wenn anhand eines Tests Voraussagen gemacht werden können.
Merke: Die gängigste Form der externen Validierung ist die Korrelation mit anderen Tests. Die Ergebnisse eines neuen Tests werden mit denen eines etablierten Tests (gleiches zu messendes Merkmal) in derselben Personengruppe verglichen.

Gütekriterien: Sensitivität, Spezifität und Prädiktionswerte

Mithilfe eines psychologischen Tests möchten Sie ein Individuum einer Merkmalsklasse zuordnen (z. B. Patient mit Depression, ADHS o. ä.). Um eine medizinische Diagnose zu stellen, machen Sie bestimmte Tests und treffen anhand der Ergebnisse und Ihrem Expertenurteil eine diagnostische Entscheidung.

Das Fehler-Risiko einer solchen Entscheidung ist hoch. Um eine solche Entscheidungstheorie zu beurteilen, kommen die Sensitivität, Spezifität und Prädiktionswert in Spiel. So werden diagnostische Vorgehensweisen hinsichtlich ihres Nutzens beurteilt.

Nachweisverfahren: Macht die diagnostische Vorgehensweise Sinn?

Die Güte und der Nutzen eines Tests werden folgendermaßen geprüft: Eine große Stichprobe mit einer positiven und einer negativen Klasse wird einem Nachweisverfahren unterzogen und damit die Richtigkeit der Klassifikation überprüft, z. B. wird der Anti-Körper-HIV-Test mittels des aufwendigeren, teureren Western-Blots überprüft.

Achtung: Eine negative Diagnose bezeichnet meist einen gesunden Zustand, eine positive Diagnose das Vorhandensein eines kritischen Merkmals, also einen Krankheitszustand.
  • Sensitivität: Die Sensitivität gibt an, wie viele Personen tatsächlich krank sind, die ein Test (z. B. Brustkrebsscreening) als positiv identifiziert.
  • Spezifität: Die Spezifität gibt an, wie viele Personen gesund sind, die ein Test als negativ identifiziert hat.
  • Positiver Prädiktionswert: Die Wahrscheinlichkeit, mit welcher Personen mit positivem Testergebnis auch tatsächlich krank sind.
  • Negativer Prädiktionswert: Wahrscheinlichkeit, mit welcher Personen mit einem negativen Testergebnis auch tatsächlich gesund sind.

Mit dem Vier-Felder-Schema der Entscheidungsmöglichkeiten lassen sich die Kennwerte leicht berechnen:

Tatsächlicher Zustand
Diagnose Positiv (krank) Negativ (gesund) insgesamt
Positiv(krank) Entscheidung richtig positiv A Entscheidung falsch positiv B Positiver Prädiktionswert A/A+B
Negativ (gesund) Entscheidung falsch negativ C Entscheidung richtig negativ D Negativer Prädiktionswert D/(C+D)
insgesamt Sensitivität A/(A+C) Spezifität D/(B+D)  

Quelle: [3] S. Rothgangel (2010): Kurzlehrbuch Medizinische Psychologie und Soziologie, S. 154, Abb. 4.3) Thieme Verlag.

Prüfungsfragen: Medizinische Psychologie und Soziologie – das könnte Sie erwarten

Die Lösungen befinden sich unterhalb der Quellenangaben.

1. Bei einem Experiment welches die Reaktionszeit misst, werden die Messwerte in Sekunden angegeben. Auf welchem Niveau erfolgt dabei die Messung des Merkmals?

  1. Intervallskala
  2. Nominalskala
  3. Ordinalskala
  4. Rationalskala
  5. relativen Beurteilungsskala

2. Welche Beschreibung trifft auf die Likert-Skala am ehesten zu?

  1. Messung der Assoziationen von Gegenstandspaaren
  2. Abstufungen zwischen den Extrempolen
  3. Ratingskala mit meist 5 Stufen, der Gesamttestwert wird am Schluss addiert
  4. Personen werden in Bezug auf das Merkmal in eine hierarchische Reihenfolge gebracht
  5. Eine Aufforderung Paarkombinationen zu vergleichen

3. Was gehört nicht zu den Merkmalen wissenschaftlicher Hypothesen nach Bortz und Döring?

  1. Empirische Untersuchbarkeit
  2. Falsifizierbarkeit
  3. Generalisierbarkeit und Allgemeinheitsgrad
  4. Konditionalsatzformulierung
  5. Interne Validierung

Quellen

M. Schön (2007): GK1 Medizinische Psychologie und Soziologie. Springer Verlag.

S. Rothgangel (2010): Kurzlehrbuch Medizinische Psychologie und Soziologie. Thieme Verlag.

Poppers Falsifikationismus via TU Dresden Philosophische Fakultät

Lösungen zu den Quizfragen: 1D, 2C, 3E

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *