Zusammenfassung

Testtheorie und Fragebogenkonstruktion

Inhalt

 

 

Grundlagen

 

Erweiterungen

 

Kapitel 1: Einführung und zusammenfassender Überblick

Kapitel 1 "Einführung und zusammenfassender Überblick" beschreibt zusammenfassend den Gegenstandsbereich des Buches. Was ist unter einem "Test" oder "Fragebogen" zu verstehen? Als Adressaten des Buches werden die Test- und Fragebogenkonstrukteure sowie die Testanwender angesprochen. Ziel des ersten Kapitels ist es herauszustellen, was unter einem "Test" oder "Fragebogen" zu verstehen ist. Dazu wird eine Begriffsdefinition des Testbegriffs gegeben, die einen Test als ein "wissenschaftliches Routineverfahren" auffasst, das wissenschaftlichen Kriterien genügt.

zurück zum Inhalt

 

Grundlagen

 

Kapitel 2: Qualitätsanforderungen an einen psychologischen Test (Testgütekriterien)

  • 2.1 Objektivität
  • 2.2 Reliabilität
  • 2.3 Validität
  • 2.4 Skalierung
  • 2.5 Normierung (Eichung)
  • 2.6 Testökonomie
  • 2.7 Nützlichkeit
  • 2.8 Zumutbarkeit
  • 2.9 Unverfälschbarkeit
  • 2.10 Fairness

 

Was unterscheidet einen psychologischen Test oder Fragebogen von einer rein intuitiven Zusammenstellung von Aufgaben bzw. Fragen?
Diese Frage lässt sich dahingehend beantworten, dass ein psychologischer Test bzw. Fragebogen ganz bestimmten wissenschaftlichen Kriterien entsprechen muss. Welches diese Kriterien - man spricht auch von Testgütekriterien - sind, wird in diesem Kapitel zusammenfassend dargestellt, wobei zwischen zehn dieser Qualitätsanforderungen unterschieden wird: Objektivität, Reliabilität, Validität, Skalierung, Normierung (Eichung), Testökonomie, Nützlichkeit, Zumutbarkeit, Unverfälschbarkeit und Fairness.

zurück zum Inhalt

 

Kapitel 3: Planung und Entwicklung von Tests und Fragebogen

  • 3.1 Testplanung
  • 3.2 Konstruktionsstrategien für die Entwicklung von psychologischen Tests und Fragebogen
  • 3.3 Aufgabentypen und Antwortformate für die Itemkonstruktion
  • 3.4 Fehlerquellen bei der Itembeantwortung
  • 3.5 Gesichtspunkte der Itemformulierung
  • 3.6 Erstellen einer vorläufigen Testversion
  • 3.7 Erprobung der vorläufigen Testversion

 

Dieses Kapitel "Planung und Entwicklung von psychologischen Tests und Fragebogen" beschreibt die handlungsleitenden Basisüberlegungen bei der Konstruktion von neuen Tests und Fragebogen. Diese sind aber nicht nur für den Testkonstrukteur von Interesse; vielmehr befähigt das Wissen um die Konstruktionsvorgänge und deren Zusammenhänge mit der Güte eines Tests auch einen Testanwender, eine qualifizierte Auswahl aus der Vielzahl von verfügbaren Tests und Fragebogen zu treffen.

Die Inhalte dieses Kapitels erstrecken sich von der Testplanung über die Test- und Fragebogenentwicklung bis hin zur Erstellung einer vorläufigen Testversion.

zurück zum Inhalt

 

Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

  • 4.1 Einleitung
  • 4.2 Schwierigkeitsanalyse
  • 4.3 Itemvarianz
  • 4.4 Trennschärfeanalyse
  • 4.5 Itemselektion und Revision des Tests
  • 4.6 Testwertermittlung
  • 4.7 Testwertverteilung und Normalisierung
  • 4.8 Zusammenfassung und weiteres Vorgehen

 

Dieses Kapitel beschreibt die Schritte, die von der vorläufigen zu der endgültigen Testversion führen. Zu Beginn des Kapitels erfolgt eine ausführliche Darstellung der Analyseschritte folgender Itemmerkmale: Itemschwierigkeit, Itemvarianz und Trennschärfe. Deren simultane Beurteilung hat die Testrevision zum Ziel, also die Zusammenstellung der geeignetsten Items zu einer endgültigen Testversion.

In einem weiteren Schritt wird die Analyse der Testwertverteilung behandelt, deren Ergebnisse wiederum entscheidend dafür sind, welche statistischen Analyseverfahren auf die ermittelten Testwerte angewendet werden dürfen.

zurück zum Inhalt

 

Kapitel 5: Klassische Testtheorie (KTT)

  • 5.1 Einleitung
  • 5.2 Axiome der Klassischen Testtheorie
  • 5.3 Bestimmung des wahren Testwertes τv (»true score«)
  • 5.4 Bestimmung der wahren Varianz und der Fehlervarianz
  • 5.5 Das Gütekriterium der Reliabilität
  • 5.6 Standardmessfehler und Konfidenzintervall für τv
  • 5.7 Grenzen und Schwächen der Klassischen Testtheorie

 

Ausgangspunkt der Annahmen der Klassischen Testtheorie, die in einem ersten Teil dieses Kapitels behandelt werden, ist die theoretische Zerlegung eines beobachteten Testergebnisses in einen wahren Wert, der die tatsächliche Merkmalsausprägung einer Person repräsentiert, und einen zufälligen Fehlerwert. Letzterer steht im Mittelpunkt der Betrachtungen, weshalb mitunter auch von einer „Messfehlertheorie" gesprochen wird. Die meisten auf dem Markt befindlichen psychologischen Tests und Fragebogen basieren auf den Annahmen der KTT, was eine intensive Auseinandersetzung mit ihnen erforderlich macht.

Des Weiteren stellt sie die Verstehensgrundlage wichtiger Konzepte innerhalb der Testtheorie und Testkonstruktion dar, wie der Reliabilität (Zuverlässigkeit) eines Tests als eines der wichtigsten Testgütekriterien oder des Standardmessfehlers, der die Beurteilung erlaubt, mit welcher Genauigkeit ein Testwert die wahre Merkmalsausprägung einer Person widerspiegelt. Diese Konzepte sind ebenfalls Gegenstand dieses Kapitels.

zurück zum Inhalt

Kapitel 6: Methoden der Reliabilitätsbestimmung

  • 6.1 Was ist Reliabilität?
  • 6.2 Retest-Reliabilität
  • 6.3 Paralleltest-Reliabilität
  • 6.4 Splithalf-(Testhalbierungs-)Reliabilität
  • 6.5 Interne Konsistenz
  • 6.6 Zusammenfassende Diskussion

 

Die Reliabilität, also die Messgenauigkeit eines psychologischen Tests bzw. Fragebogens, stellt eines der wichtigsten Testgütekriterien dar. Dieses Kapitel erläutert, ausgehend von der Klassischen Testtheorie, ausführlich die verschiedenen Methoden, die zur Bestimmung der Reliabilität gebräuchlich sind. Dabei handelt es sich um die Retest-Reliabilität, die Paralleltest-Reliabilität, die Splithalf-(Testhalbierungs-)Reliabilität sowie die interne Konsistenz, wobei auf die Vor- und Nachteile der jeweiligen Methode eingegangen wird.

zurück zum Inhalt

 

Kapitel 7: Validität

  • 7.1 Was ist Validität?
  • 7.2 Operationale und theoretische Merkmalsdefinitionen
  • 7.3 Inhaltsvalidität: Beziehung zwischen Merkmal und Testinhalten
  • 7.4 Validität theoriebasierter Testwertinterpretationen
  • 7.5 Validität diagnostischer Entscheidungen
  • 7.6 Wahl einer geeigneten Validierungsmethode
  • 7.7 Zusammenfassung

 

Dieses Kapitel befasst sich mit dem wichtigsten Gütekriterium überhaupt, der Validität. Sie gibt das Ausmaß an, in dem ein Test tatsächlich das misst, was er messen soll. Dabei wird nicht davon ausgegangen, dass es die Validität eines Tests gibt, vielmehr werden Ansätze und Wege beschrieben, die Validität der Interpretationen eines Testergebnisses zu analysieren. Je nach Testart und Verwendungszweck der Testergebnisse stehen verschiedene Aspekte der Validität im Vordergrund; dazu gehören die Konstrukt-, die Inhalts- und die Kriteriumsvalidität.
Im Unterschied zu anderen Testgütekriterien, wie z. B. der Reliabilität, gibt es keine vom Inhalt unabhängigen, einheitlichen Methoden zur Bestimmung der Validität, was sie zum komplexesten und am schwersten bestimmbaren Gütekriterium macht.

zurück zum Inhalt

 

Kapitel 8: Interpretation von Testresultaten und Testeichung

  • 8.1 Testwertbildung und Testwertinterpretation
  • 8.2 Normorientierte Testwertinterpretation
  • 8.3 Kriteriumsorientierte Testwertinterpretation
  • 8.4 Integration von norm- und kriteriumsorientierter Testwertinterpretation
  • 8.5 Normdifferenzierung
  • 8.6 Testeichung

 

Dieses Kapitel befasst sich mit der Frage, welche Schlüsse aus einem Testergebnis gezogen werden können und dürfen. Dabei steht zunächst die Unterscheidung zwischen normorientierter und kriteriumsorientierter Testwertinterpretation im Vordergrund. Im ersten Fall wird der Testwert durch den Vergleich mit einer Eichstichprobe (Normwerten) interpretiert, im zweiten Fall mit Bezug auf ein bestimmtes Kriterium.
Was bei der Normierung eines Tests zu beachten ist und wie Kriterien bestimmt werden können, ist ebenfalls Gegenstand dieses Kapitels.

zurück zum Inhalt

 

Kapitel 9: Standards für psychologisches Testen

  • 9.1 Standards für die Entwicklung und Evaluation ppsychologischer Tests
  • 9.2 Standards für die Übersetzung und Anpassung psychologischer Tests
  • 9.3 Standards für die Anwendung psychologischer Tests
  • 9.4 Standards für die Qualitätsbeurteilung psychologischer Tests
  • 9.5 Zusammenfassung

 

Die Verwendung von Ergebnissen aus psychologischen Tests und Fragebogen kann weitreichende Folgen haben - je nach Einsatzbereich in der Erkenntnisgewinnung (wenn er wissenschaftlichen Zwecken dient), aber auch für einzelne Personen (wenn er diagnostischen Zwecken dient).
In jedem Fall muss darauf Verlass sein, dass die Schlüsse, die aus Testergebnissen gezogen werden, mit hoher Wahrscheinlichkeit zutreffen, was durch die in diesem Kapitel beschriebenen, allgemein anerkannten nationalen und internationalen Standards gesichert werden soll. Sie beziehen sich auf verschiedene Bereiche psychologischen Testens, wie z. B. auf die Entwicklung und Evaluation (Testkonstruktion), auf die Übersetzung und Anpassung (Testadaptation), auf die Durchführung, Auswertung und Interpretation (Testanwendung) sowie auf die Überprüfung der Einhaltung der Standards bei der Testentwicklung und Evaluation (Qualitätsbeurteilung) psychologischer Tests.

zurück zum Inhalt

 

Erweiterungen

 

Kapitel 10: Item-Response-Theorie (IRT)

  • 10.1 Grundlegendes
  • 10.2 Lokale stochastische Unabhängigkeit
  • 10.3 Einteilung von IRT-Modellen
  • 10.4 Latent-Trait-Modelle mit dichotomem Antwortmodus
  • 10.5 Interpretation von Testwerten in der IRT
  • 10.6 Weitere Modelle der IRT
  • 10.7 Zusammenfassung

 

Dieses Kapitel beschreibt Testmodelle, die unter der Bezeichnung „Item-Response-Theorie" zusammengefasst werden. Ihnen ist gemeinsam, dass sie (wahrscheinlichkeitstheoretische) Annahmen über die Beziehung zwischen den beobachtbaren Itemantworten in einem Test und dem zu messenden, nicht direkt beobachtbaren Merkmal formulieren. Wichtige IRT-Modelle wie das Rasch- oder das Birnbaum-Modell werden dargestellt; ebenso Analyseschritte, die mit der Anwendung von IRT-Modellen einhergehen, wie der Parameterschätzung und der Überprüfung der Modellpassung.
Die IRT gilt gemeinhin als Ergänzung der Klassischen Testtheorie, da sie gravierende Mängel dieser zu überwinden vermag - wie sie dies tut, wird durch dieses Kapitel deutlich gemacht.

zurück zum Inhalt

 

Kapitel 11: Adaptives Testen

  • 11.1 Der Grundgedanke des adaptiven Testens
  • 11.2 Bestimmungsstücke adaptiver Testalgorithmen
  • 11.3 Auswirkungen adaptiven Testens
  • 11.4 Multidimensionales adaptives Testen
  • 11.5 Zusammenfassung und Anwendungsempfehlungen

 

Gegenstand dieses Kapitels ist das Adaptive Testen, welches durch die Entwicklung der Item-Response-Theorie ermöglicht wurde. Es stellt ein spezielles Vorgehen bei der Messung der individuellen Ausprägung des Merkmals da, bei dem die Probanden nicht alle Testaufgaben zur Bearbeitung vorgelegt bekommen, sondern eine Auswahl an Testaufgaben, die sich maßgeschneidert an der individuellen Leistungsfähigkeit der Person orientiert. Dies hat eine erhebliche Steigerung der Messeffizienz zur Folge.
Es werden die Kriterien zur Bestimmung der Itemauswahl zu Beginn und während der Testung erläutert, ebenso wie die Kriterien für die Beendigung des Testens.
In einem weiteren Schritt werden die Auswirkungen des Adaptiven Testens erörtert, u. a. mit Bezug auf die Validität und die Motivation zur Testbearbeitung.

zurück zum Inhalt

 

Kapitel 12: Latent-Class-Analysis

  • 12.1 Einleitung und Überblick
  • 12.2 Herleitung der Modellgleichung
  • 12.3 Parameterschätzung und Überprüfung der Modellgüte
  • 12.4 Exploratorische und konfirmatorische Anwendungen der LCA
  • 12.5 Erweiterte Anwendungen der LCA
  • 12.6 Zusammenfassung

 

Ausgangspunkt der Latent-Class-Analysis, die zu den IRT-Modellen zählt, ist die Annahme einer kategorialen Persönlichkeitsvariablen, d.h. Charakterisierungen von Personen beziehen sich nicht auf ein „mehr" oder „weniger" bzgl. des Persönlichkeitsmerkmals (Person v ist intelligenter als Person w), sondern auf die Zuordnung von Personen zu bestimmten latenten Klassen oder Typen (Person v verwendet andere kognitive Lösungsstrategien als Person w). So ist auch nicht der Summenwert einer Person Gegenstand der Berechnungen, sondern das Antwortmuster.

Das Ziel besteht darin, eine Person, die ein bestimmtes Antwortmuster aufweist, mit einer bestimmten Wahrscheinlichkeit einer latenten Klasse zuzuordnen.

zurück zum Inhalt

 

Kapitel 13: Exploratorische (EFA) und Konfirmatorische Faktorenanalyse (CFA)

  • 13.1 Einleitung
  • 13.2 Exploratorische Faktorenanalyse
  • 13.3 Konfirmatorische Faktorenanalyse
  • 13.4 Unterschiede zwischen der EFA und der CFA
  • 13.5 Zusammenfassung

 

Diese beiden Verfahren werden auch als sog. datenreduzierende Analyseverfahren bezeichnet, da die Variation von einer Vielzahl von Items auf einige wenige Dimensionen (oder auch Faktoren) zurückgeführt wird. Innerhalb der Testtheorie und Testkonstruktion werden sie oft zur Überprüfung der Konstruktvalidität eingesetzt, indem beispielsweise ermittelt wird, ob diejenigen Items, die dasselbe Merkmal messen sollen, tatsächlich auf einen gemeinsamen Faktor zurückführbar sind.

Dieses Kapitel beschreibt zunächst die Ablaufschritte der beiden Verfahren, um sie dann jeweils an einem empirischen Beispiel zu verdeutlichen. Dabei besteht der Hauptunterschied darin, dass anhand der EFA ermittelt werden soll, wie viele Faktoren einer Vielzahl von Items zugrunde liegen (hypothesengenerierendes Verfahren), während die CFA theoretisch begründete Annahmen bzgl. der Anzahl von Faktoren und ihrer Zusammenhangsstruktur überprüft (hypothesenprüfendes Verfahren).

zurück zum Inhalt

 

Kapitel 14: Multitrait-Multimethod-Analysen

  • 14.1 Grundüberlegungen zur Multitrait-Multimethod-Analyse
  • 14.2 Das MTMM-Design
  • 14.3 Analysemethoden
  • 14.4 Zusammenfassung

 

Der in diesem Kapitel beschriebene Ansatz dient der Überprüfung der Konstruktvalidität eines Tests oder Fragebogens.

Ausgangspunkt der Analysen ist zunächst die Unterscheidung zwischen konvergenter und diskriminanter Validität, wobei erstere vorliegt, wenn Messungen ein und desselben Merkmals, das mit verschiedenen Methoden erfasst wird, hohe Zusammenhänge aufweisen. Diskriminante Validität liegt hingegen vor, wenn Messungen verschiedener Merkmale mit derselben Methode keine oder nur geringe Zusammenhänge aufweisen.

Dabei wird angenommen, das nicht nur das zu messende Merkmal einen Einfluss auf die Testwerte hat, sondern eben auch die jeweilige Messmethode (Trait- vs. Methodenanteile der Messungen).

Es wird ausführlich beschrieben, wie diese beiden Validitätsaspekte mit Hilfe des sog. Multitrait-Multimethod-Designs analysiert und bzgl. der Konstruktvalidität interpretiert werden können.

zurück zum Inhalt

 

Kapitel 15: Latent-State-Trait-Theorie (LST-Theorie)

  • 15.1 Einleitung
  • 15.2 Die Klassische Testtheorie als Grundlage
  • 15.3 Die LST-Theorie als Erweiterung der Klassischen Testtheorie
  • 15.4 Modelltypen
  • 15.5 Anwendungen der Latent-State-Trait-Theorie
  • 15.6 Zusammenfassung

 

Die in diesem Kapitel behandelte Latent-State-Trait-Theorie (LST-Theorie) stellt eine Erweiterung der Klassischen Testtheorie dar, indem sie neben den Einflüssen der als stabil angenommenen Merkmalsvariablen und einer zufälligen Fehlervariablen auch die spezifischen situationalen Einflüsse der Messsituation berücksichtigt. Aufgrund dieser Zerlegung ist es möglich zu beurteilen, welchen Einfluss die Merkmalsvariable und welchen Einfluss die Testsituation (einschließlich der Interaktion von Person und Situation) auf die Testwerte haben.

zurück zum Inhalt

 

Kapitel 16: Konvergente und diskriminante Validität über die Zeit:  Integration von Multitrait-Multimethod-Modellen und der Latent-State-Trait-Theorie

  • 16.1 Einleitung
  • 16.2 Längsschnittliche MTMM-Modelle
  • 16.3 Das Multiconstruct-LST- und das Multimethod-LST-Modell in der empirischen Anwendung
  • 16.4 Zusammenfassung und praktische Hinweise

 

In diesem Kapitel erfolgt eine Integration von Multitrait-Multimethod-Modellen, die den Einfluss verschiedener Messmethoden auf die Messergebnisse untersuchen, und der Latent-State-Trait-Theorie, die genutzt werden können, um personenbedingte von messgelegenheitsspezifischen Einflüssen auf Merkmalsausprägungen zu trennen.

Ziel dieses Kapitels ist es zu verdeutlichen, dass Merkmalsausprägungen von Individuen über die Zeit schwanken können, und dass somit auch die konvergente und diskriminante Validität verschiedener Methoden und Konstrukte zeitlichen Veränderungen unterworfen sind.

zurück zum Inhalt