Testtheorie und Fragebogenkonstruktion

9783642200717_moosbruggerkelava_a2_cover.png

Testtheorie und Fragebogenkonstruktion

ISBN: 
978-3-642-20071-7

Einen Test oder Fragebogen selbst konstruieren? Beurteilen, was einen guten Test oder Fragebogen kennzeichnet, und verstehen, welche Theorie dahinter steckt? Datenanalysen am Computer selbst durchführen und interpretieren können? Diese Kompetenzen der Psychologischen Diagnostik und Forschung sollte man beherrschen - nicht nur für Prüfungen oder Abschlussarbeiten in der Psychologie und in den Sozial- oder Wirtschaftswissenschaften, sondern auch für alle Fragen des Assessments im Berufsleben.

Weiterlesen

Dieses erfolgreiche Lehrbuch deckt sowohl die Grundlagen im Bachelor-Studium (z.B. Grundlagen der Planung und Entwicklung von Tests, Testgütekriterien, Itemanalyse, klassische Testtheorie) als auch vertiefende Aspekte im Master-Studiengang ab (z.B. Item-Response-Theorie, adaptives Testen, Latent-Class-Analysis, Latent-State-Trait-Theorie). Die zweite Auflage wurde sorgfältig überarbeitet und aktualisiert. Neu hinzugekommen sind Hinweise und Anleitungen zur Nutzung von Anwendungssoftware (SPSS, LISREL u.a.), Beispieldatensätze sowie Musteranalysen und kommentierte Ergebnisscreens in kostenlosen Zusatzkapiteln zum Download auf www.lehrbuch-psychologie.de. Um das Wissen zu vertiefen oder zu überprüfen, bietet die Website den Studierenden darüber hinaus noch weitere Lern-Tools. Bei allem wurde besonderer Wert auf die verständliche Aufbereitung des Wissens gelegt: Definitionen, Merksätze, Zusammenfassungen und Anwendungsbeispiele helfen, Tests zu verstehen, Tests selbst zu konstruieren, Tests richtig zu interpretieren!

 

 

 

Datei: 
BegriffErklärung
1PL-ModellDieses Modell der Item-Response-Theorie beschreibt den Zusammenhang zwischen dem beobachtbaren dichotomen Antwortverhalten und dem dahinterstehenden latenten Merkmal auf Grundlage einer Wahrscheinlichkeitsfunktion mit einem Itemparameter, nämlich dem Schwierigkeitsparameter σi.
2PL-ModellIm Unterschied zum 1PL-Modell wird bei diesem Modell der Item-Response-Theorie ein zusätzlich zu schätzender Itemparameter λi ins Modell aufgenommen, der die Diskriminierungsfähigkeit des Items (ähnlich der Trennschärfe in der Klassischen Testtheorie) repräsentiert.
3PL-ModellIn diesem Modell der Item-Response-Theorie wird zusätzlich zu den Parametern des 2PL-Modells noch die Ratewahrscheinlichkeit als Parameter ρi in das Modell aufgenommen und geschätzt.
Adaptiver AlgorithmusEin Regelsystem, welches die Itemauswahl zu Beginn und während des Tests regelt sowie Kriterien der Testbeendigung spezifiziert.
Adaptives TestenEin spezielles Vorgehen bei der Messung individueller Ausprägungen von Personmerkmalen, bei dem sich die Auswahl der zur Bearbeitung vorgelegten Items an der Leistungsfähigkeit des untersuchten Probanden orientiert.
Weitere Begriffe
Zurück
Frage 1 von 84
Weiter
  • Was versteht man unter „Normierung“ (Testeichung)?

    Lösung

    Unter der Normierung (Eichung) eines Tests versteht man das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse eines Probanden im Vergleich zu den Merkmalsausprägungen anderer Probanden eindeutig eingeordnet werden können. Ein solches Bezugssystem ermöglicht die Interpretation einzelner Testwerte. Die Ergebnisse einer solchen Testeichung werden in Normtabellen festgehalten, in denen einzelne Testwerte nachgeschlagen werden können und mit der Bezugspopulation verglichen werden können.
  • Erklären Sie bitte eine Möglichkeit einen Test zu normieren.

    Lösung

    Eine Möglichkeit, einen Testwert zu normieren, ist die Bildung von Prozenträngen. Hierfür wird ein gemessener Testwert mit den in der Eichstichprobe gemessenen Werten verglichen. Die in der Eichstichprobe erzielten prozentualen Häufigkeiten der Testwerte werden bis zu dem Testwert, den der Proband erzielt hat, aufkumuliert, sodass derjenige Prozentsatz an Probanden bestimmt wird, die im Test besser bzw. schlechter abschneiden als die Referenzleistung in der Eichstichprobe. Weitere Normierungstechniken beziehen sich meist auf den Abstand des individuellen Testwerts xv vom Mittelwert x̄ in der entsprechenden Eichstichprobe und drücken die resultierende Differenz in Einheiten der Standardabweichung SD(x) der Verteilung aus. Aus diesem Vorgehen leiten sich unter anderem Normwerte wie z.B. IQ-Werte, T-Werte und Stanine-Werte ab.
  • Wie kann man die Testökonomie erhöhen?

    Lösung

    Das Gütekriterium der Ökonomie ist erfüllt, wenn der Test, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig Ressourcen wie Zeit oder Geld beansprucht. Die Testökonomie kann dadurch erhöht werden, wenn zum einen der _finanzielle Aufwand_, der sich z.B. aus dem Verbrauch des Testmaterials oder der Beschaffung des Tests ergibt, gering ist und zum anderen der _zeitliche Aufwand_ für die Vorbereitung, Durchführung und Auswertung einschließlich der Ergebnisrückmeldung minimal ist. Gemessen wird dieses Gütekriterium meist im Vergleich zu anderen Tests, die dasselbe Merkmal erfassen.
  • Was versteht man unter Testfairness?

    Lösung

    Von Testfairness spricht man dann, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen. Dieses Kriterium wird vor allem vor dem Hintergrund der Intelligenzdiagnostik diskutiert und hat zur Entwicklung einer Reihe von „Culture-Fair Tests“ geführt, die versuchen Merkmale wie die Intelligenz möglichst sprachfrei zu messen.
  • Worauf muss bei der Generierung von Antwortmöglichkeiten im Rahmen von Auswahlaufgaben bei Leistungstests besonders geachtet werden, worauf bei Persönlichkeitstests?

    Lösung

    Allgemein auf Anzahl der Antwortkategorien.

    Bei Leistungstests: mehrere disjunkte Antwortkategorien; Qualität der Distraktoren;
    Anzahl der Richtigantworten (meist nur eine Richtigantwort).

    Bei Persönlichkeitstests: Disjunkte Antwortkategorien; Exhaustivität.
  • Welche Möglichkeiten zur Senkung der Ratewahrscheinlichkeit bestehen im Rahmen von Zuordnungsaufgaben?

    Lösung

    Nichtzuordenbare Antwortalternativen einstreuen; Qualität der Distraktoren beachten, d.h. die Attraktivität der Distraktoren gewährleisten.
  • In welchen der fünf Stadien der Aufgabenbeantwortung (nach Podsakoff et al., 2003) ist insbesondere mit Effekten der Selbsttäuschung (Self deceptive enhancement) zu rechnen, in welchen mit Effekten der Fremdtäuschung (Impression Management)?

    Lösung

    Selbsttäuschung:
    Im Stadium Abruf (2) und im Stadium Urteil (3): Hierbei können zwei Fehler auftreten: 1) der Proband erinnert sich vorwiegend an Ereignisse, die ihn in einem besserem Licht erscheinen lassen (Abruf verzerrt); 2) der Proband fällt ein Urteil über seine Charaktereigenschaften, das durch die Selbsttäuschung verzerrt ist, weil er sich bspw. eher zu milde beurteilt (Urteil verzerrt).

    Fremdtäuschung:
    Im Stadium der Antwortabgabe (5): Der Proband passt seine Antwortwahl (4) so an, dass er für den Testleiter bzw. den Auftraggeber der Testung in einem besseren Licht erscheint. Er gibt eine sozial erwünschte Antwort, die von seiner eigentlichen Selbsteinschätzung über seine Charaktereigenschaften abweicht.
  • Welche Aspekte sollte man bei der Reihenfolge von Items in einem Fragebogen berücksichtigen?

    Lösung

    Insbesondere bei Leistungstest ist auf die Schwierigkeit der Einstiegsitems zu achten. Als Eisbrecher können leichte Items fungieren, während die schwierigen Items eher an das Ende des Tests gestellt werden. Dies kann die Motivation eines Probanden erhöhen und man kann dadurch dessen maximale Leistung besser erfassen (Erzeugung einer Optimizing-Einstellung).

    Bei Leistungs- und Persönlichkeitstests sollten Aktualisierungs- bzw. Konsistenzeffekte ausgeschlossen werden. Die Beantwortung eines Items soll nicht die Beantwortung eines anderen Items beeinflussen.

    Bei Leistungstests betrifft dies mögliche Informationen, die die Lösungswahrscheinlichkeit anderer Items durch Lösung (Aktualisierungseffekt) anheben, nämlich dann, wenn ein Item Kognitionen aktiviert, mittels derer die Lösung unmittelbar nachfolgender Items erleichtert wird. Zur Verringerung von Aktualisierungseffekten soll die Reihung so gewählt werden, dass es zwischen benachbarten Items keine logischen und inhaltlichen Abhängigkeiten gibt.

    Bei Persönlichkeitstests treten eher Konsistenzeffekte auf, nämlich dann, wenn die Beantwortung eines Items auch die Beantwortung der anderen Items beeinflusst, bspw. wenn der Proband möglichst stimmige Antworten abgeben möchte (hier auch im Sinne des Impression Managements denkbar) oder nur eine globale Einstellung kundtun möchte, nicht aber gewissenhaft auf die einzelnen Items eingeht. Zur Verringerung von Konsistenzeffekten sollen in multidimensionalen Tests die Items aus gleichen Merkmalsbereichen nicht hintereinander, sondern zufällig über den ganzen Test verteilt dargeboten werden.
  • Welche Möglichkeiten stehen für die Erprobung der ersten Testversion zur Verfügung?

    Lösung

    Retrospektive Befragung, Debriefing, Verhaltenskodierung, Kognitives Vortesten, Technik des lauten Denkens; hinzu käme die empirische Itemanalyse aus Kapitel 4.
  • Durch welche Aspekte wird die Länge eines Tests beeinflusst? Welche Effekte ziehen die einzelnen Aspekte nach sich?

    Lösung

    1. Anzahl der Merkmalsdimension: Je mehr Dimensionen man erfassen möchte, desto mehr Items muss man in den Test einfügen, da jede einzelne Dimension durch eine Reihe von Items erfasst wird.
    2. Homogenität der Merkmalsdimension: Ein homogenes Merkmal benötigt weniger Items als ein heterogenes.
    3. Messgenauigkeit: Grundsätzlich gilt, je länger ein Test ist, desto genauer misst er. Es sollte jedoch beachtet werden, dass der Zuwachs an Genauigkeit mit einer steigenden Gesamtanzahl der Items abnimmt (Näheres dazu in Abschn. 5.5.2 in diesem Band).
    4. Motivation des Probanden: Ein Test, der zu umfangreich ist, demotiviert die Probanden. Dies kann zum Satisficing führen und damit zu einer Verzerrung der Ergebnisse. Dieser Aspekt betrifft auch die Zumutbarkeit.
    5. Ziel des Tests: Möchte man ein Screening-Verfahren entwickeln, genügen wenige Items zur Erzielung einer groben Abschätzung der Merkmalsausprägung; ein Diagnostikinstrument zur Individualdiagnostik benötigt hingegen mehr Items für eine genauere Abschätzung der Merkmalsausprägung.
    6. Testökonomie: Wieviel Zeit und Geld steht für den praktischen Einsatz des Tests zur Verfügung? Der Einsatz von 4-stündigen Testbatterien zur Erfassung von Arbeitszufriedenheit in einem Unternehmen ist vermutlich weder ratsam noch durchführbar.

    Grundsätzlich ist das Ziel eines Tests; mit möglichst wenigen, qualitativ hochwertigen Items eine hohe Messgenauigkeit und Validität zu erreichen, die die Erfüllung des Testziels unter Berücksichtigung der Rahmenbedingungen ermöglicht.
  • Wie berechnet man den Schwierigkeitsindex Pi bei Persönlichkeitstests?

    Lösung

    Den Schwierigkeitsindex Pi bei Persönlichkeitstests berechnet man bei einer k-stufigen Antwortskala wie folgt:


    ![Formel Schwierigkeitsindex(zentriert)](https://lehrbuch3.s3.amazonaws.com/files/asset/4fc8fe5096c815000100004d/schwierigkeitsindex_formel.jpg "Formel für den Schwierigkeitsindex")


    Dabei kann der Schwierigkeitsindex Pi als arithmetischer Mittelwert der Itemantworten der n Probanden auf der k-stufigen Antwortskala (multipliziert mit 100) interpretiert werden.
  • Gibt es einen Zusammenhang zwischen Itemvarianz und Itemschwierigkeit? Wenn „ja“, wie lässt sich dieser beschreiben?

    Lösung

    Ja, es gibt einen Zusammenhang zwischen Itemvarianz und Itemschwierigkeit. Dieser ist kurvilinear (s. Abbildung 4.1). Die Itemvarianz ist im Allgemeinen bei mittlerer Itemschwierigkeit maximal. Hier wird die größter Differenzierung zwischen den Personen erreicht, während sie zu den beiden extremen Ausprägungen der Itemschwierigkeit hin (sehr niedrig, sehr hoch) stark abnimmt, bis bei Pi=0 sowie bei Pi=100 keine Differenzierung (itemvarianz) mehr vorliegt.
  • Was sagt die Trennschärfe rit eines Items i aus?

    Lösung

    Die Trennschärfe rit eines Items i drückt aus, wie groß der korrelative Zusammenhang zwischen den Itemwerten xvi der Probanden und den Testwerten xv der Probanden ist. Die Trennschärfe rit wird verwendet, um einzuschätzen, wie sehr ein Item i ein Merkmal repräsentiert.
  • Welche Maße würden Sie bestimmen, um zu beurteilen, ob eine Testwertverteilung von der Normalverteilung abweicht?

    Lösung

    Um zu beurteilen, ob eine Testwertverteilung von einer Normalverteilung abweicht, berechnet man vor allem die Schiefe und den Exzess der Verteilung. Weichen diese substantiell von 0 ab, so liegt keine Normalverteilung der Testwerte vor.
  • 5. Welche Ursachen für die Abweichung der Testwertverteilung von der Normalverteilung kennen Sie?

    Lösung

    Als erste Ursache für die Abweichung der Testwerte von der Normalverteilung kommt eine mangelhafte Konstruktion des Tests in Frage. So ist z.B. mit einer linksschiefen, d.h. rechtssteilen, Verteilung zu rechnen, wenn der Test insgesamt .zu leicht ist.
    Als zweite Ursache ist denkbar, dass die Stichprobe heterogen ist. Das bedeutet, dass sie sich aus Unterstichproben zusammensetzt, die für sich genommen jeweils normalverteilt sind, aber zusammengenommen eine Mischverteilung bilden, die von der Normalverteilung abweicht.

    Eine dritte Ursache könnte darin bestehen, dass das erhobene Merkmal auch in der Population nicht normalverteilt ist (z.B. Reaktionsfähigkeit).
  • Was ist das »klassische« an der KTT?

    Lösung

    Die Klassische Testtheorie wird deshalb als „klassisch“ bezeichnet, weil sie bereits vor über 50 Jahren entwickelt wurde, somit schon verhältnismäßig alt ist und sich sehr bewährt hat. Mittlerweile wurden mit der Items-Response-Theorie neuere Ansätze entwickelt, welche die Klassische Testtheorie in einigen Punkten ergänzen bzw. ersetzten können.
  • Erläutern Sie knapp die wesentlichen Grundannahmen der KTT.

    Lösung

    Die wesentlichen Grundannahmen der KTT sind in sogenannten Axiomen festgehalten, die als solche nicht hinterfragt werden. Im Existenzaxiom wird angenommen, dass für die Merkmalsausprägung eines Probanden ein „wahrer Wert“ existiert, der als Erwartungswert der Messung des Probanden definiert ist. Das Verknüpfungsaxiom besagt, dass sich die Messung des Probanden aus einem wahren Wert und einem Fehlerwert zusammensetzt. Aus der Verbindung beider Axiome ergeben sich der Erwartungswert von Null für den Fehlerwert sowie die Unkorreliertheit von Fehlerwert und wahrem Wert.
  • Warum soll zur Bestimmung des wahren Wertes auch ein Konfidenzintervall gebildet werden?

    Lösung

    Da der wahre Wert τv eines Probanden v nicht direkt berechnet werden kann, wird der beobachtete Testwert xv als Punktschätzung verwendet. Dabei ist jedoch zu berücksichtigen, dass nur der Erwartungswert der Punktschätzung mit dem wahren Wert übereinstimmt, sodass sich Testwert und wahrer Wert um einen Fehlerwert unterscheiden können. Deswegen soll zusätzlich zu der Punktschätzung das Konfidenzintervall angegeben werden, nämlich jener Bereich um die Punktschätzung, in dem sich der wahre Wert mit einer vorher festgelegten Wahrscheinlichkeit (meistens 95% oder 99%) befindet.
  • Wie ist der Reliabilitätskoeffizient in der KTT definiert und was besagt ein Reliabilitätskoeffizient von 1?

    Lösung

    Der Reliabilitätskoeffizient gibt die Messgenauigkeit eines Tests an. Er ist als Anteil der Varianz der wahren Werte Var(τ) an der Varianz der beobachteten Testwerte Var(x) definiert. Ein Reliabilitätskoeffizient von Rel = 1 besagt, dass die Reliabilität ihren Maximalwert erreicht hat; dies bedeutet, dass die gesamte Testwertevarianz nur aus wahrer Varianz besteht und der Test somit völlig frei von Messfehlern misst.
  • Für welchen Zweck wird die Spearman-Brown Formel eingesetzt?

    Lösung

    Die Reliabilität eines Tests erhöht sich, wenn der Test um parallele Testteile verlängert wird. Die Spearman-Brown Formel findet Verwendung, wenn berechnet werden soll, welcher Reliabilitätskoeffizient für den Gesamttest resultiert, wenn man zwei parallele Testteile zu einem Gesamttest zusammenfügt.
  • Nennen Sie die wichtigsten Kritikpunkte an der KTT.

    Lösung

    Die Kritikpunkte beziehen sich zunächst auf die Axiome, die empirisch nicht überprüft werden können. Sodann kann das implizierte Intervallskalenniveau der Testwerte nicht überprüft werden, sodass die Erfüllung des Gütekriteriums der Skalierung anzweifelbar ist. Schwächen liegen auch bezüglich der Itemhomogenität vor, da die Annahme, dass alle Items, die für die Berechnung des Testwertes herangezogen werden, das Gleiche messen und somit homogen sind, auf Basis der Annahmen der KTT nicht überprüft werden kann. Außerdem sind alle Kennwerte der KTT von der jeweils untersuchten Stichprobe abhängig, sodass eine Verallgemeinerung der gefundenen Ergebnisse problematisch ist.
  • Wie ist die Reliabilität in der Klassischen Testtheorie definiert?

    Lösung

    Die Reliabilität ist ein Gütekriterium und bezeichnet die Messgenauigkeit eines Tests. Ein Testverfahren ist perfekt reliabel, wenn die damit erhaltenen Testwerte frei von zufälligen Messfehlern sind. Je höher die Einflüsse solcher zufälligen Messfehler sind, desto weniger reliabel ist das Testverfahren. In der Klassischen Testtheorie ist die Reliabilität definiert als das Verhältnis zwischen der Varianz der wahren Werte und der Varianz der Testwerte.
  • Bei der zweifachen Messung eines Konstrukts über die Zeit können systematische und unsystematische Veränderungen der wahren Werte auftreten. Welche dieser Veränderungen wirken sich auf die Reliabilitätsschätzung aus?

    Lösung

    Systematische Veränderungen, die bei allen getesteten Personen gleich ausfallen, wirken sich nicht auf die Reliabilitätsschätzung aus, da sich die Korrelation zwischen erstem und zweitem Messzeitpunkt durch das Addieren oder Subtrahieren eines konstanten Betrags bei allen Testwerten nicht ändern würde (s. Abbildung 6.1b).
    Dagegen wirken sich unsystematische Veränderungen, bei denen sich die wahren Werte zwischen den Messzeitpunkten für verschiedene Personen unterschiedlich verändern, auf die Reliabilitätsschätzung aus, da hierdurch die Korrelation der Testwerte zwischen den Messzeitpunkten 1 und 2 herabgesetzt wird. Die unsystematischen Veränderungen können z.B. durch unterschiedlich große Lern- oder Übungseffekte (s. Abbildung 6.1c) oder durch interindividuell unterschiedliche Entwicklungsverläufe bei instabilen Merkmalen (s. Abbildung 6.1d) entstehen.
  • Ein Rechentest wurde im Abstand von zwei Wochen an der gleichen Stichprobe wiederholt. Es ergab sich eine Korrelation der Testwerte zwischen erstem und zweitem Messzeitpunkt von .85. Alternativ wurde der Test beim ersten Messzeitpunkt auch im Sinne der Odd-Even-Methode in zwei Testhälften aufgeteilt, wobei die Aufgaben abwechselnd jeweils einer der beiden Testhälften zugeordnet wurden. Hier ergab sich eine Korrelation zwischen den Testwerten beider Testhälften von nur .74. Widersprechen sich diese Werte?

    Lösung

    Die Korrelation zwischen erstem und zweitem Messzeitpunkt stellt die Retest-Reliabilität dar, d.h. anhand der Testwiederholung würde man von einer Reliabilität des Tests von .85 ausgehen. Die Korrelation der Testhälften ist dagegen keine Schätzung der Reliabilität des Gesamttests, sondern nur eine Schätzung der Reliabilität der Testhälften. Dieser Wert ist systematisch geringer als die Reliabilität des Gesamttests und kann unter der Annahme, dass die Testhälften gleichartige Items enthalten (was bei der Odd-Even-Methode hier naheliegend wäre), mittels der Spearman-Brown-Korrektur zur Schätzung der Reliabilität des Gesamttests aufgewertet werden. Entsprechend Gleichung 6.5 ergibt sich damit eine Splithalf-Reliabilität von 2 · .74/(1+.74) = .85, d.h. Retest- und Splithalf-Reliabilitätsschätzungen stimmen für diesen Test exakt überein.
  • Eine Fragebogenskala zu Extraversion enthält einerseits Items, die im Sinne des Konstrukts Extraversion formuliert sind, andererseits aber auch invers formulierte Items im Sinne von Introversion. Bei der Berechnung der internen Konsistenz der Skala ergab sich ein Wert von -.20. Wie beurteilen Sie das Ergebnis? Ist eine negative Konsistenz möglich? Wodurch könnte der negative Wert entstanden sein?

    Lösung

    Die Reliabilität als Anteil der wahren Varianz an der Gesamtvarianz kann grundsätzlich nicht negativ sein, sondern im schlechtesten Fall null. Da die Berechnung der internen Konsistenz aber auf den Kovarianzen zwischen den Items basiert, können bei der Berechnung der internen Konsistenz als Reliabilitätsschätzung negative Werte auftreten, wenn einzelne Items negativ miteinander korrelieren - während man für Items der gleichen Skala normalerweise positive Zusammenhänge erwarten würde. Bei der in der Frage beschriebenen Situation könnte beispielsweise vergessen worden sein, die im Sinne von Introversion formulierten Items vor der Berechnung der Konsistenz zu invertieren, so dass die Introversions-Items dann negativ mit den Extraversions-Items korrelierten.
  • Was versteht man unter Validität?

    Lösung

    Validität ist ein integriertes bewertendes Urteil über das Ausmaß, in dem die Angemessenheit und die Güte von Interpretationen und Maßnahmen auf Basis von Testwerten oder anderen diagnostischen Verfahren durch empirische Belege und theoretische Argumente gestützt sind (Messick, 1989, S. 13).
  • Häufig wird vereinfachend von „der Validität eines Tests“ gesprochen. Warum ist diese Vereinfachung potenziell irreführend und welche Verwendung des Begriffs ist genauer?

    Lösung

    Validität ist ein sehr breites Gütekriterium, dass sich auf verschiedene Qualitätsaspekte eines Tests bezieht, daher gibt es nicht „die“ Validität eines Tests. Präziser ist es, von der Validität (Gültigkeit) spezifischer Interpretationen von Testergebnissen zu sprechen. Spezifische Interpretationen der mit einem Test gewonnenen Ergebnisse können nämlich empirisch und/oder theoretisch gut gestützt sein, während andere nicht belegt sind.
  • Was ist die Grundidee der Konstruktvalidität im Sinne Cronbach & Meehls (1955)?

    Lösung

    Es werden theoretische Annahmen über die Zusammenhänge zwischen nicht direkt beobachtbaren Konstrukten („nomologisches Netz“) formuliert. Wenn die empirischen Zusammenhänge zwischen Tests, die diese Konstrukte messen sollen, dem theoretischen Zusammenhangsmuster entsprechen, wird dies als Hinweis darauf interpretiert, dass die Tests tatsächlich die interessierenden Konstrukte messen.
  • Welches Problem besteht bei der konkreten Untersuchung der Konstruktvalidität auf Basis das von Cronbach und Meehl (1955) beschriebenen idealen Vorgehens?

    Lösung

    Psychologische Theorien sind bis heute wenig oder gar nicht formalisiert, daher kann für die Mehrzahl psychologischer Tests kein oder nur ein weitgehend unstrukturiertes nomologisches Netz begründet werden.
  • Nennen Sie ein Beispiel für einen Test, bei dem die Inhaltsvalidität von vorrangiger Bedeutung ist.

    Lösung

    Wenn ein Test die Erreichung eines Lehrziels (z. B. der Inhalte eines Studienmoduls) prüfen soll, besteht die wichtigste Interpretation des Testergebnisses in einer Verallgemeinerung auf die Gesamtheit des Lehrstoffs; deshalb ist in diesem Beispiel die Inhaltsvalidität von vorrangiger Bedeutung.
  • Was ist im Kontext der Validität diagnostischer Entscheidungen mit dem Begriff der „inkrementellen Validität“ gemeint?

    Lösung

    Die inkrementelle Validität bezeichnet das Ausmaß, in dem die Vorhersage eines externen Kriteriums durch die Hinzunahme eines weiteren Tests gesteigert werden kann. Hierbei geht es vor allem um die Frage, welcher zusätzliche diagnostische Aufwand noch zu einer lohnenden Verbesserung der Entscheidungsgrundlage führt. Die inkrementelle Validität kann in einer multiplen Regression durch den Zuwachs an erklärter Varianz bei der Vorhersage eines externen Kriteriums ermittelt werden.
  • Worin unterscheiden sich normorientierte und kriteriumsorientierte Testwertinterpretation?

    Lösung

    Zur normorientierten Testwertinterpretation wird der Testwert in einen Normwert transformiert, anhand dessen die Testperson innerhalb der Bezugsgruppe positioniert wird.
    Bei der kriteriumsorientierten Testwertinterpretation erfolgt die Interpretation in Bezug zu einem inhaltlich definierten Kriterium. Für die kriteriumsorientierte Testwertinterpretation ist es unerheblich, wie viele Personen der Bezugsgruppe das Kriterium erreichen.
  • Welches Skalenniveau weisen Prozentränge auf und was ist infolgedessen bei der Verwendung von Prozenträngen zu beachten?

    Lösung

    Prozentränge weisen lediglich Ordinalskalenniveau auf insofern sie als Ergebnis der Flächentransformation die empirischen Relationen zwischen Testwerten in nicht-linearer Weise repräsentieren. Infolgedessen dürfen Differenzen zwischen Prozenträngen nicht berechnet werden, um Merkmalsunterschiede zu vergleichen.
  • Für eine Testperson mit dem Testwert xv= 45 soll ermittelt werden, wie groß der Personenanteil in der Bezugsgruppe ist, der einen Testwert erzielt hat, der geringer oder maximal so hoch ist, wie xv. Es ist bekannt, dass die Testwertvariable in der Bezugsgruppe normalverteilt ist (x̄ = 30, SD(x)=10).

    Lösung

    Gesucht wird der Prozentrang PRv zum Testwert xv= 45. Aus xv und den Verteilungskennwerten der Bezugsgruppe lässt sich der zv-Normwert als zv= 1.5 errechnen. In der Standnormalverteilungstabelle (siehe auch Abb. 8.2) lässt sich für diesen Wert ein Prozentrang von PRv= 93 ablesen.
  • Ein Testentwickler hat mittels ROC-Analyse einen optimalen Schwellenwert definiert. Aus inhaltlichen Gründen hält er es für sinnvoll, den Schwellenwert so zu verschieben, dass die Rate falsch positiver Klassifikationen sinkt. In welche Richtung muss der Schwellenwert verschoben werden, wenn gilt, dass niedrige Testwerte auf das Vorliegen des Kriteriums hinweisen?

    Lösung

    Der Schwellenwert muss in Richtung niedrigerer Testwerte verschoben werden.
  • Welche Rolle spielt die Normdifferenzierung bei der Testeichung?

    Lösung

    Die Testeichung dient dazu, Normwerte zur normorientierten Testwertinterpretation zu gewinnen. Die Bildung von differenzierten Normen ist dann in Erwägung zu ziehen, wenn mit dem Untersuchungsmerkmal korrelierte Hintergrundfaktoren bekannt sind und es für Anwender von Bedeutung ist, diese bei der Testwertinterpretation kontrollieren zu können (z.B. Geschlecht).
  • Nennen und erläutern Sie kurz, für welche Aspekte innerhalb der Testentwicklung und –evaluation Teststandards beachtet werden sollen.

    Lösung

    Teststandards liegen für die Bereiche _Testkonstruktion_, _Testadaptation_ sowie _Testanwendung_ und _Qualitätsbeurteilung_ psychologischer Tests vor. Die Test-konstruktion befasst sich mit der Entwicklung und Evaluation von Tests, wohingegen sich die Testadaption mit der Übersetzung und Anpassung von Tests im internationalen Rahmen beschäftigt. Die Testanwendung umfasst die Durchführung, Auswertung und Interpretation eines Tests. Innerhalb der Qualitätsbeurteilung wird überprüft, inwiefern die Standards der Testentwicklung und –evaluation eingehalten wurden.
  • Welche wesentlichen Standards existieren gemäß der SEPT und der DIN 33430 für die Validität eines Tests?

    Lösung

    Für die Validität sollten empirische, aktuelle Belege vorliegen, die möglichst nicht älter als 8 Jahre sein sollten. Im Kontext der Inhaltsvalidität muss beispielsweise der im Test abgebildete Inhaltsbereich definiert und in seiner Bedeutung für die vorgesehene Testanwendung beschrieben sein; bei etwaigen Expertenurteilen muss die Qualifikation der Experten dargelegt werden. Für den Nachweis von Kriteriumsvalidität wird unter anderem eine exakte Beschreibung etwaiger Kriteriumsmaße eines Tests und deren Erfassung gefordert. Zur differentiellen Vorhersagbarkeit müssen statistische Schätzungen Anwendung finden, wobei Gruppenunterschiede zu berücksichtigen sind.
  • Beschreiben Sie kurz die Richtlinien in den 4 Sektionen der Test-Adaption Guidelines (TAG).

    Lösung

    _Sektion 1_ widmet sich der Frage nach der Konstruktäquivalenz in Bezug auf eine Population mit anderem sprachlichen und kulturellen Hintergrund. In _Sektion 2_ sollen durch Erhebung geeigneter Stichproben und anschließende statistische Analysen empirische Belege für die Konstruktäquivalenz bzw. Reliabilität und Validität der adaptierten Testversion bereitgestellt werden. _Sektion 3_ behandelt Fragen zur Testdurchführung bei sprachlich und kulturell unterschiedlichen Gruppen, insbesondere zur Auswahl von Testanwendern, der Wahl der Aufgabenstellungen und Zeitbeschränkungen. _Sektion 4_ betont die Notwendigkeit einer ausführlichen Testdokumentation.
  • Worauf sollte innerhalb der Testauswertung beim Ermitteln der Ergebnisse geachtet werden?

    Lösung

    Um eine größtmögliche Exakt- und Korrektheit zu erzielen, sollten bei der Testauswertung standardisierte Auswertungsmethoden angewendet werden. Der Testanwender sollte über ausreichende statistisch-methodische Kenntnisse verfügen. Zudem sollte er das Zustandekommen der Testergebnisse für den Probanden transparent machen.
  • Was versteht man unter „lokaler stochastischer Unabhängigkeit“?

    Lösung

    Lokale stochastische Unabhängigkeit liegt dann vor, wenn die Korrelationen von manifesten Variablen verschwinden, sofern man sie auf den einzelnen Stufen der latenten Variablen untersucht. Die latente Variable kann dann als Ursache für die Korrelationen angesehen werden.
  • Was beschreibt eine IC-Funktion?

    Lösung

    Die IC-Funktion (itemcharakteristische Funktion) beschreibt die Beziehung zwischen dem latenten Merkmal und dem Reaktionsverhalten auf ein dichotomes Item in Form einer Wahrscheinlichkeitsaussage.
  • Worin besteht der Unterschied zwischen deterministischen und probabilistischen Modellen?

    Lösung

    Bei deterministischen Modellen sind die Lösungswahrscheinlichkeiten für die einzelnen Items immer null oder eins, während bei probabilistischen Modellen Lösungswahrscheinlichkeiten in allen Abstufungen zwischen null und eins auftreten können.
  • Erläutern Sie die Begriffe „spezifische Objektivität“ und „Stichprobenunabhängigkeit“!

    Lösung

    Spezifische Objektivität bedeutet, dass alle IC-Funktionen die gleiche Form aufweisen und lediglich entlang der ξ-Achse parallel verschoben sind. Der Schwierigkeitsunterschied zweier Items (σ i-σ i) kann unabhängig davon festgestellt werden, ob Personen mit niedrigen oder hohen Merkmalsausprägungen ξ untersucht wurden. In Umkehrung sind auch Vergleiche zwischen Personen (ξv-ξw) unabhängig von den verwendeten Items. Stichprobenunabhängigkeit bedeutet, dass die Itemparameter unabhängig von den Personen und die Personenparameter unabhängig von den Items geschätzt werden können.
  • Was versteht man unter „adaptivem Testen“?

    Lösung

    Adaptives Testen bedeutet, dass das Schwierigkeitsniveau der vorgegebenen Testitems an die Merkmalsausprägung des jeweiligen Probanden angepasst wird. Bei den einzelnen Probanden werden nur diejenigen Testitems zur Anwendung gebracht, die für das Fähigkeitsniveau des einzelnen Probanden eine hohe Messgenauigkeit (Iteminformation) aufweisen.
  • Welche Fälle können im polytomen Rasch-Modell unterschieden werden?

    Lösung

    Man unterscheidet das mehrdimensionale und das eindimensionale polytome Rasch-Modell. Im eindimensionalen Spezialfall des polytomen Modells lassen sich die Antwortkategorien auf einer Rangskala anordnen.
  • Worin unterscheiden sich Latent-Class-Modelle von Latent-Trait-Modellen?

    Lösung

    In Latent-Class-Modellen werden Personenunterschiede auf kategoriale latente Variablen zurückgeführt, im Unterschied zu Latent-Trait-Modellen, welche von kontinuierlichen latenten Variablen ausgehen.
  • Worin besteht die Grundidee linear-logistischer Modelle?

    Lösung

    Linear-logistische Modelle versuchen, die Schwierigkeitsparameter der Items auf solche Basisoperationen zurückzuführen, welche für eine erfolgreiche Bearbeitung des Items notwendig sind. Jeder der Schwierigkeitsparameter wird als Linearkombination einer möglichst geringen Anzahl von Basisparametern ausgedrückt.
  • Warum ist die Verwendung der klassischen Testtheorie (KTT) beim computerisierten adaptiven Testen nicht angezeigt?

    Lösung

    Bei computerisierten adaptiven Tests werden den Probanden je nach gezeigtem Antwortverhalten unterschiedliche Items vorgelegt. Dabei bekommen Personen mit einer höheren Ausprägung in dem zu messenden Merkmal Items mit höherer Schwierigkeit vorgelegt als Personen mit niedrigerer Ausprägung. Die bei der Testwertermittlung im Rahmen der KTT übliche Aggregation über Summen- oder Mittelwertbildung würde keine sinnvolle Differenzierung der untersuchten Personen erlauben.
  • Durch computerisiertes adaptives Testen können substanzielle Steigerungen der Messeffizienz im Vergleich zu nicht-adaptiven Tests erzielt werden. Für welche beiden Verbesserungen kann diese Messeffizienzsteigerung genutzt werden?

    Lösung

    Die Messeffizienzsteigerung kann zur Verminderung der Anzahl der den Probanden vorgelegten Items bei gleichbleibender Messpräzision oder zur Steigerung der Messpräzision bei stabiler Itemanzahl genutzt werden.
  • Im Bereich der klinischen Psychologie soll ein Test entwickelt werden, mit dem Ängstlichkeit sowohl von Gesunden als auch von pathologisch Ängstlichen gemessen werden soll. Warum ist in diesem Fall computerisiertes adaptives Testen als vorteilhaft anzusehen?

    Lösung

    Bei konventionellen nicht-adaptiven Tests werden den Probanden in der Regel viele Items mit mittlerer Schwierigkeit und nur wenige Items mit extremer Schwierigkeit vorgegeben. Mit solchen Tests können Personen mit mittlerer Merkmalsausprägung präzise gemessen werden. Eine Differenzierung von Personen an den Rändern der Merkmalsverteilung ist jedoch nur unpräzise möglich, da Probanden mit sehr hoher oder sehr niedriger Ausprägung des zu messenden Merkmals nur wenige Items mit adäquater Schwierigkeit vorgegeben bekommen. Dies kann beispielsweise dazu führen, dass sich die Testergebnisse von Probanden mit hoher Ängstlichkeit kaum oder gar nicht von den Testergebnissen von Probanden mit sehr hoher Ängstlichkeit unterscheiden. Bei computerisierten adaptiven Tests werden allen Probanden Items mit adäquater Schwierigkeit vorgegeben, was eine gute Differenzierungsfähigkeit über die gesamte Breite der latenten Merkmalsdimension und – wie im vorliegenden Beispiel – auch für pathologisch Ängstliche ermöglicht.
  • Wie sollte der Itempool eines computerisierten adaptiven Tests beschaffen sein, damit dieser über die gesamte Breite der zu messenden Merkmalsdimension in gleicher Weise differenzierungsfähig ist?

    Lösung

    Bei computerisierten adaptiven Tests werden den Probanden Aufgaben vorgegeben, die der Ausprägung ihrer individuellen Ausprägung in dem zu messenden Merkmal angepasst sind. Der Itempool sollte deshalb genügend Items über den gesamten zu messenden Merkmalsbereich aufweisen.
  • Gegeben sei ein Konstrukt, das auf theoretischer Ebene durch sieben korrelierende Subdimensionen spezifiziert wird. Die siebendimensionale Struktur ist aufgrund bereits vorliegender empirischer Ergebnisse als gesichert anzusehen. Zur Messung des Konstrukts soll nun ein neues Testverfahren konstruiert werden. Warum bietet sich multidimensionales adaptives Testen in diesem Falle an?

    Lösung

    Erstens kann die theoretische Annahme, dass das Konstrukt aus sieben korrelierten Dimensionen besteht bei multidimensionalem adaptivem Testen direkt im Messverfahren abgebildet werden. Da die Dimensionen korrelieren, ist zweitens mit einer höheren Messeffizienz im Vergleich zu nicht-adaptiven Test und auch zu mehreren eindimensionalen adaptiven Tests zu erwarten. Letztlich ist zu beachten, dass es durch multidimensionales adaptives Testen gegebenenfalls erst möglich wird, die sieben Dimensionen in akzeptabler Testzeit mit angemessener Präzision zu messen.
  • Warum ist die Verwendung der klassischen Testtheorie (KTT) beim computerisierten adaptiven Testen nicht angezeigt?

    Lösung

    Bei computerisierten adaptiven Tests werden den Probanden je nach gezeigtem Antwortverhalten unterschiedliche Items vorgelegt. Dabei bekommen Personen mit einer höheren Ausprägung in dem zu messenden Merkmal Items mit höherer Schwierigkeit vorgelegt als Personen mit niedrigerer Ausprägung. Die bei der Testwertermittlung im Rahmen der KTT übliche Aggregation über Summen- oder Mittelwertbildung würde keine sinnvolle Differenzierung der untersuchten Personen erlauben.
  • Durch computerisiertes adaptives Testen können substantielle Steigerungen der Messeffizienz im Vergleich zu nicht-adaptiven Tests erzielt werden. Für welche beiden Verbesserungen kann diese Messeffizienzsteigerung genutzt werden?

    Lösung

    Die Messeffizienzsteigerung kann zur Verminderung der Anzahl der den Probanden vorgelegten Items bei gleichbleibender Messpräzision oder zur Steigerung der Messpräzision bei stabiler Itemanzahl genutzt werden.
  • Im Bereich der klinischen Psychologie soll ein Test entwickelt werden, mit dem Ängstlichkeit sowohl von Gesunden als auch von pathologisch Ängstlichen gemessen werden soll. Warum ist in diesem Fall computerisiertes adaptives Testen als vorteilhaft anzusehen?

    Lösung

    Bei konventionellen nicht-adaptiven Tests werden den Probanden in der Regel viele Items mit mittlerer Schwierigkeit und nur wenige Items mit extremer Schwierigkeit vorgegeben. Mit solchen Tests können Personen mit mittlerer Merkmalsausprägung präzise gemessen werden. Eine Differenzierung von Personen an den Rändern der Merkmalsverteilung ist jedoch nur unpräzise möglich, da Probanden mit sehr hoher oder sehr niedriger Ausprägung des zu messenden Merkmals nur wenige Items mit adäquater Schwierigkeit vorgegeben bekommen. Dies kann beispielsweise dazu führen, dass sich die Testergebnisse von Probanden mit hoher Ängstlichkeit kaum oder gar nicht von den Testergebnissen von Probanden mit sehr hoher Ängstlichkeit unterscheiden. Bei computerisierten adaptiven Tests werden allen Probanden Items mit adäquater Schwierigkeit vorgegeben, was eine gute Differenzierungsfähigkeit über die gesamte Breite der latenten Merkmalsdimension und – wie im vorliegenden Beispiel - auch für pathologisch Ängstliche ermöglicht.
  • Wie sollte der Itempool eines computerisierten adaptiven Tests beschaffen sein, damit dieser über die gesamte Breite der zu messenden Merkmalsdimension in gleicher Weise differenzierungsfähig ist?

    Lösung

    Bei computerisierten adaptiven Tests werden den Probanden Aufgaben vorgegeben, die der Ausprägung ihrer individuellen Ausprägung in dem zu messenden Merkmal angepasst sind. Der Itempool sollte deshalb genügend Items über den gesamten zu messenden Merkmalsbereich aufweisen.
  • Gegeben sei ein Konstrukt, das auf theoretischer Ebene durch sieben korrelierende Subdimensionen spezifiziert wird. Die siebendimensionale Struktur ist aufgrund bereits vorliegender empirischer Ergebnisse als gesichert anzusehen. Zur Messung des Konstrukts soll nun ein neues Testverfahren konstruiert werden. Warum bietet sich multidimensionales adaptives Testen in diesem Falle an?

    Lösung

    Erstens kann die theoretische Annahme, dass das Konstrukt aus sieben korrelierten Dimensionen besteht bei multidimensionalem adaptivem Testen direkt im Messverfahren abgebildet werden. Da die Dimensionen korrelieren ist zweitens mit einer höheren Messeffizienz im Vergleich zu nicht-adaptiven Test und auch zu mehreren eindimensionalen adaptiven Tests zu erwarten. Letztlich ist zu beachten, dass es durch multidimensionales adaptives Testen gegebenenfalls erst möglich wird, die sieben Dimensionen in akzeptabler Testzeit mit angemessener Präzision zu messen.
  • Was versteht man bei der LCA unter
    (a) der „unbedingten Klassenzuordnungswahrscheinlichkeit“ ( P(g) oder πg) ?
    (b) der „bedingten Klassenzuordnungswahrscheinlichkeit“ P(g|av) ?
    (c) der „unbedingten Antwortmusterwahrscheinlichkeit“ P(av) ?
    (d) der „bedingten Antwortmusterwahrscheinlichkeit“ P(av|g) ?

    Lösung

    (a) Die Wahrscheinlichkeit πg bezeichnet die a priori Wahrscheinlichkeit der Klassenzugehörigkeit g, oder anders ausgedrückt: die relative Größe einer Klasse g in der Population. Vereinfacht gesagt ist πg die Wahrscheinlichkeit, mit der eine beliebige Person (ohne etwas über sie zu wissen) in der Population der Klasse g angehört.
    (b) Die Wahrscheinlichkeit P(g|av) bezeichnet die Wahrscheinlichkeit der Klassenzugehörigkeit g gegeben ein konkretes Antwortmuster av. Vereinfacht gesagt ist P(g|av) die Wahrscheinlichkeit, mit der eine Person in der Population der Klasse g angehört, wenn sie das Antwortmuster av aufweist.
    (c) Die Wahrscheinlichkeit P(av) bezeichnet die Wahrscheinlichkeit des Antwortmusters av in der Population. Vereinfacht gesagt ist P(av) die Wahrscheinlichkeit, mit der eine beliebige Person in der Population das Antwortmuster av aufweist.
    (d) Die Wahrscheinlichkeit P(av|g) bezeichnet die Wahrscheinlichkeit des Antwortmusters av gegeben eine latente Klassenzugehörigkeit g. Vereinfacht gesagt ist P(av|g) die Wahrscheinlichkeit, mit der eine Person in der Population das Antwortmuster av aufweist, wenn sie der Klasse g angehört.
  • (a) Wie viele mögliche Antwortmuster Namax gibt es im Falle von 8 dichotomen Items?
    (b) Wie viele Freiheitsgrade hätte die ξ2-Statistik im Falle eines Modells mit 4 latenten Klassen?
    (c) Sagen wir, der ξ2-Wert dieses Modells beträgt 287,6: Welche Schlussfolgerungen ziehen Sie auf der Basis des „klassischen“ ξ2-Tests in Bezug auf die Gültigkeit dieses Modells (auf einem Signifikanzniveau von α = 5%)?

    Lösung

    (a) Bei m = 8 dichotomen Items gibt es Namax = 2m = 28 = 256 mögliche Antwortmuster.
    (b) Insgesamt stehen s = Namax − 1 = 255 Informationen zur Verfügung. Im Falle eines Modells mit G = 4 Klassen müssten t = G x (m + 1) − 1 = 4 x 9 − 1 = 35 Modellparameter geschätzt werden. Die χ2-Statistik hätte in diesem Fall also df = s − t = 255 − 35 = 220 Freiheitsgrade (s. Formel 12.10a).
    (c) Ein χ2-Wert von 287,6 läge bei einem Signifikanzniveau von α = 5% im Ablehnungsbereich unter der Nullhypothese (der kritische Wert beträgt χ2krit(df=220) = 255,6; unser Wert liegt darüber). Die Nullhypothese muss also abgelehnt werden; der „klassische“ χ2-Test würde nahelegen, dass das Modell nicht auf die Daten passt.
  • Konstruieren und erläutern Sie einen Fall, in dem die Annahme der lokalen stochastischen Unabhängigkeit innerhalb der Klassen verletzt wäre.

    Lösung

    Das wäre z.B. dann der Fall, wenn die Wahrscheinlichkeit, ein Item zu bejahen, nicht nur von der Klassenzugehörigkeit abhängt, sondern auch davon, ob man das vorangegangene Item ebenfalls bejaht hat oder nicht. Konkret: Wenn man das Item „Ich mag gern Falafel“ bejaht, wird man im Anschluss daran das Item „Ich mag Araber“ vermutlich ebenfalls eher bejahen, während dies bei einer anderen Darbietungsreihenfolge nicht unbedingt der Fall sein dürfte. In diesem Fall wären die beiden Items nicht stochastisch voneinander unabhängig, selbst wenn die Personen der gleichen Klasse g angehören.
  • Erläutern Sie, wie (und wieso) sich bei informationstheoretischen Maßen die Komplexität eines LCA-Modells niederschlägt? Wie nimmt man auf der Basis von informationstheoretischen Maßen einen Vergleich zwischen verschiedenen LCA-Modellen vor?

    Lösung

    Bei informationstheoretischen Maßen wie dem AIC, dem BIC und dem CAIC ist es so, dass ihre Werte umso größer werden, je mehr Modellparameter zu schätzen sind (d.h. je größer die Anzahl der latenten Klassen G ist). Zur Erinnerung: Die Anzahl zu schätzender Modellparameter berechnet sich zu t = G x (m + 1) − 1. Sie hängt also maßgeblich von der Anzahl der Klassen ab. Modelle mit vielen latenten Klassen (also „komplexe“ Modelle) passen in der Regel zwar besser auf die Daten, aber sie verletzen auch das Gebot der Sparsamkeit. Daher werden „komplexe“ Modelle bei AIC, BIC und CAIC „bestraft“. Beim indirekten Vergleich verschiedener LCA-Modelle wählt man dasjenige mit dem kleinsten informationstheoretischen Wert, und je größer die Klassenanzahl G, desto größer ist dieser Wert.
  • Was versteht man in der LCA unter einer Fixierungs-, einer Gleichheits- und einer Ordnungsrestriktion? Geben Sie jeweils ein Beispiel.

    Lösung

    Bei einer Fixierungsrestriktion werden einzelne Modellparameter auf einen konkreten Wert fixiert. Beispielsweise könnte man bei einem Zwei-Klassen-Modell den Parameter π1 auf 0,75 fixieren (was bedeuten würde, dass man davon ausgeht, dass Klasse 1 dreimal so groß ist wie Klasse 2).
    Bei einer Gleichheitsrestriktion werden mehrere Modellparameter auf denselben Wert fixiert. Beispielsweise könnte man bei einem Drei-Klassen-Modell bestimmen, dass alle Klassen gleich groß sein sollen (π1 = π2 = π3 = 0,33), oder man könnte bestimmen, dass die Antwortwahrscheinlichkeiten innerhalb einer Klasse bei allen Items identisch sind.
    Bei einer Ordnungsrestriktion werden mehrere Modellparameter so geschätzt, dass sie in einer festgelegten Ordnungsrelation zueinander stehen. Beispielsweise könnte man bei einem Drei-Klassen-Modell festlegen, dass alle bedingten Antwortwahrscheinlichkeiten in Klasse 1 größer sind als in Klasse 2, und dass sie dort wiederum größer sind als in Klasse 3.
  • Welches sind die wesentlichen Unterschiede zwischen der exploratorischen und der konfirmatorischen Faktorenanalyse?

    Lösung

    Die exploratorische Faktorenanalyse ist ein hypothesengenerierendes Verfahren zur Datenreduktion, wohingegen die konfirmatorische Faktorenanalyse theoriegeleitet vorgeht und daher als hypothesenprüfend bezeichnet wird. Bei der EFA wird die Anzahl der Faktoren durch die Analyse ermittelt; diese können anschließend anhand der Variablen, die auf den jeweiligen Faktoren hoch laden, inhaltlich interpretiert werden. Bei der CFA ist sowohl die Anzahl der Faktoren a priori festgelegt, als auch deren inhaltliche Interpretation, die Beziehungen zwischen den Faktoren und Variablen, sowie die Beziehung der Faktoren untereinander. Bei der CFA können zusätzlich zur Überprüfung einzelner Modelle auch Vergleiche zwischen konkurrierenden Modellen durchgeführt werden.
  • Warum ist die Parallelanalyse dem Kaiser-Kriterium als Abbruchkriterium vorzuziehen?

    Lösung

    Da in empirischen Datensätzen häufig Variablen enthalten sind, die nur zufällig korrelieren, treten empirische Eigenwerte größer als eins auf, obwohl die beteiligten Variablen in Wahrheit unkorreliert (orthogonal) sind. Die Parallelanalyse erlaubt eine Unterscheidung zwischen nichttrivialen relevanten Eigenwerten größer als null und trivialen, nur zufallsbedingten Eigenwerten größer als null. Als Konsequenz werden nur diejenigen Eigenwerte als relevant interpretiert, deren Höhe die Höhe der trivialen Eigenwerte aus der Parallelanalyse übertrifft. Damit ist die Parallelanalyse leistungsstärker als das Kaiser-Kriterium, welches alle Eigenwerte größer null als relevant betrachtet.
  • Was versteht man unter der Kommunalität einer Variablen?

    Lösung

    Die Kommunalität einer Variablen gibt an, in welchem Ausmaß die Varianz der Variablen durch die extrahierten Faktoren erklärt wird.
  • Was versteht man unter "Faktorladung" und "Eigenwert" und in welcher Beziehung stehen diese zueinander?

    Lösung

    Die Faktorladungen beschreiben die Stärke des Zusammenhangs zwischen Faktor und Variable (Item). Sie kann bei orthogonal rotierten Faktoren als Korrelation interpretiert werden. Der Eigenwert eines Faktors gibt an, wie viel Varianz von allen Variablen (Items) durch diesen Faktor erklärt wird. Die beiden Kennwerte hängen insofern zusammen, als die Eigenwerte über die Summe der quadrierten Faktorladungen pro Faktor berechnet werden.
  • Welches Ziel verfolgt die Faktorenrotation?

    Lösung

    Ziel der Rotation ist es, ein Ladungsmuster zu erreichen, das dem Kriterium der so genannten Einfachstruktur entspricht. Bei der Einfachstruktur soll jede Variable nur auf einem einzigen Faktor eine hohe Ladung (Primarladung) aufweisen und auf allen anderen Faktoren keine oder nur geringe Ladungen (Sekundärladungen).
  • Erläutern Sie kurz, welche Schritte bei einer konfirmatorischen Faktorenanalyse durchlaufen werden.

    Lösung

    Da die Hypothesen bereits feststehen, werden diese als erstes im Rahmen der Modellspezifikation in Gleichungen formuliert und im Pfaddiagramm dargestellt. Ist das Modell identifiziert, so müssen im nächsten Schritt die Methode zur Parameterschätzung (meist die Maximum-Likelihood-Methode) und die zu analysierende Matrix (meist die Kovarianzmatrix) gewählt werden. Nach erfolgreicher Parameterschätzung wird anhand der verschiedenen Gütemaße die Passung des Modells zu den Daten beurteilt.
  • Was versteht man unter konvergenter Validität, was unter diskriminanter Validität im Rahmen der Multitrait-Multimethod-Analyse?

    Lösung

    Generell spricht man von konvergenter Validität, wenn ein möglichst hoher Zusammenhang zwischen den Messungen zweier Konstrukte (z. B. Angst und Depressivität) nachgewiesen wird, und von diskriminanter Validität, wenn kein oder ein niedriger Zusammenhang zwischen den Messungen zweier Konstrukte (z. B. Angst und Aggressivität) festgestellt wird (vgl. Hartig, Frey & Jude, 2011, → Kap. 7 in diesem Band). Die Multitrait-Multimethod-Analyse kombiniert diese beiden Validitätsaspekte, indem konvergente Validität vorliegt, wenn hohe Korrelationen zwischen Messungen des gleichen Konstrukts mit unterschiedlichen Messmethoden gefunden werden, während diskriminante Validität als nachgewiesen gilt, wenn keine oder nur geringe Korrelationen zwischen Messungen unterschiedlicher Konstrukte gefunden werden, unabhängig davon, ob unterschiedliche Messmethoden oder die gleiche Messmethode eingesetzt wurden.
  • Welche Arten von Koeffizienten befinden sich in der MTMM-Matrix?

    Lösung

    In der MTMM-Matrix werden vier verschiedene Arten von Koeffizienten unterschieden: die Monotrait- und die Heterotrait-Korrelationskoeffizienten, die jeweils unter der Monomethod- bzw. der Heteromethod-Bedingung erfasst wurden:

    - Die _Monotrait-Monomethod-Koeffizienten_ in der Hauptdiagonalen der Matrix (auch _Reliabilitätsdiagonale_ genannt) sind die Reliabilitätskoeffizienten der Messinstrumente.
    - Die _Monotrait-Heteromethod-Koeffizienten_ in den Nebendiagonalen sind die konvergenten Validitäten der Traits, weshalb die Nebendiagonalen auch als Validitätsdiagonalen bezeichnet werden.
    - Die _Heterotrait-Monomethod-Koeffizienten_ sind die Korrelationen zwischen _verschiedenen_ Traits, die jeweils mit der _gleichen_ Methode erfasst wurden; sie befinden sich in den _Monomethod-Blöcken_ (Dreiecksmatrizen unterhalb der Reliabilitätsdiagonalen).
    - Die _Heterotrait-Heteromethod-Koeffizienten_ sind die Korrelationen zwischen _verschiedenen_ Traits, die jeweils mit _verschiedenen_ Methoden erfasst wurden; sie befinden sich in den _Heteromethod-Blöcken_ (Dreiecksmatrizen unterhalb und oberhalb der Validitätsdiagonalen).
  • Wie kann man die konvergente Validität nach den Kriterien von Campbell und Fiske (1959) nachweisen, wie die diskriminante Validität?

    Lösung

    Die konvergente Validität gilt nach den Kriterien von Campbell und Fiske als nachgewiesen, wenn die konvergenten Validitätskoeffizienten signifikant von null verschieden und bedeutsam sind. Die diskriminante Validität gilt als nachgewiesen, wenn die Heterotrait-Koeffizienten, d. h. die Korrelationen verschiedener Konstrukte mit derselben Methode sowie die Korrelationen verschiedener Konstrukte mit unterschiedlichen Methoden niedriger als die konvergenten Validitätskoeffizienten sind; zusätzlichen sollen die Muster der Korrelationskoeffizienten sowohl innerhalb einer Methode (Dreiecksmatrizen unterhalb der Reliablitätsdiagonalen) als auch zwischen den Methoden (Dreieckmatrizen über und unter den Validitätsdiagonalen) etwa gleich sein.
  • Was versteht man unter Methodeneffekten und welche Quellen der Methodenvarianz werden bei der MTMM-Analyse unterschieden?

    Lösung

    Nach Campbell und Fiske setzt sich jede Messung aus einer systematischen Trait-Methoden-Einheit und einem unsystematischen Fehleranteil zusammen, weshalb nicht nur der gemessene Trait, sondern darüber hinaus auch die verwendete Erfassungsmethode als Bestandteil der Messung berücksichtigt werden muss. Der Begriff „Methodeneffekt“ ist ein Sammelbegriff für verschiedene systematische Varianzquellen, die sich über den Trait hinausgehend auf die Korrelationen von Messungen auswirken können. Methodeneffekte können somit alternative Erklärungen für beobachtete Zusammenhänge zwischen Konstrukten liefern, die sich z.B. in überhöhten Korrelationen zwischen verschiedenen Traits äußern können, die mit derselben Methode gemessen wurden. Mögliche Ursachen für Methodeneffekte können Charakteristika von Messinstrumenten sein, von Beurteilern oder von Situationen, in denen Messungen durchgeführt wurden.
  • Welches sind die Vorteile der konfirmatorischen MTMM-Analyse gegenüber der korrelationsbasierten MTMM-Analyse?

    Lösung

    Die konfirmatorische Faktorenanalyse erlaubt eine Trennung von Trait-, Methoden- und Messfehlervarianz, während bei der korrelationsbasierten MTMM-Analyse Trait- und Methodeneffekte in den Schlussfolgerungen über die konvergente und die diskriminante Validität konfundiert sind. Zusätzlich ermöglicht die konfirmatorische Faktorenanalyse eine Überprüfung der Gültigkeit der zugrunde liegenden Annahmen, wie z. B. die Überprüfung der Eindimensionalität der einzelnen Traits und der Unkorreliertheit oder Korreliertheit von Methoden- oder Traitfaktoren, während die korrelationsbasierte MTMM-Analyse lediglich deskriptiv auf dem Vergleich von Korrelationskoeffizienten anhand von Häufigkeitsauszählungen beruht.
  • Mit welchem Modell der konfirmatorischen Faktorenanalyse werden die Annahmen von Campbell und Fiske am ehesten umgesetzt?

    Lösung

    Die Annahmen von Campbell und Fiske werden am ehesten mit dem CTUM-Modell (correlated trait uncorrelated method) umgesetzt, mit welchem die Traitvarianz und die Methodenvarianz der Indikatoren (Messvariablen) getrennt voneinander geschätzt und die konvergente und die diskriminante Validität unabhängig von den verwendeten Methoden bestimmt werden können.
  • Was versteht man unter einem Trait, was unter einem State?

    Lösung

    Konsistente, d.h. zeitlich stabile Merkmale, werden als „Traits“ bezeichnet, während inkonsistente, d.h. zeitlich instabile Merkmale, als „States“ bezeichnet werden.
  • Welche Erweiterung nimmt die LST-Theorie gegenüber der KTT vor?

    Lösung

    Während die KTT einen Messwert in einen wahren Wert und einen Fehlerwert zerlegt, berücksichtigt die LST-Theorie eine zusätzliche Zerlegung des wahren Wertes in einen Anteil, der durch den Trait erklärt wird sowie in einen Anteil, der Einflüsse der Situation und der Interaktion von Person und Situation enthält.
  • In welche Koeffizienten wird der Reliabilitätskoeffizient in der LST-Theorie weiter zerlegt?

    Lösung

    Der Reliabilitätskoeffizient wird in den Konsistenzkoeffizienten und den Spezifitätskoeffizienten zerlegt.
  • In welcher Beziehung stehen der Konsistenzkoeffizient und der Spezifitätskoeffizient zueinander?

    Lösung

    Je höher der eine Koeffizient ist, desto niedriger ist der andere. Beide Koeffizienten repräsentieren systematische Anteile der Gesamtvarianz, d.h. jene Anteile, die durch Person und Situation erklärbar sind.
  • Woran erkennt man in einem Singletrait-Multistate-Modell, ob die einzelnen Testhälften eher einen Trait oder eher einen State messen?

    Lösung

    Mit dem Singletrait-Multistate-Modell wird pro Messgelegenheit eine Zerlegung der wahren Varianz (Statevarianz) der Testhälften in Traitvarianz und State-Residuum-Varianz vorgenommen. Ist die Konsistenz, d.h. die Traitvarianz relativiert an der Gesamtvarianz der jeweiligen Testhälfte im Vergleich zur Spezifität, d.h. der State-Residuum-Varianz relativiert an der Gesamtvarianz der jeweiligen Testhälfte deutlich größer, so misst die Testhälfte eher einen Trait. Bleibt die Größe der Konsistenz jedoch hinter der Spezifität deutlich zurück, so misst die Testhälfte eher einen State.
  • Was wird unter austauschbaren, strukturell unterschiedlichen und gleichwertigen Methoden im Zusammenhang mit MTMM-Modellen verstanden, was sind die wesentlichen Unterschiede zwischen diesen Methoden?

    Lösung

    Austauschbare Methoden zeichnen sich dadurch aus, dass sie statistisch einer Zufallsauswahl aus der Menge aller möglichen Methoden entsprechen. Befragt man die Teilnehmer eines Trainingsprogramms bzgl. der Qualität des Trainings so sind diese Ratings austauschbar, da alle an der gleichen Maßnahme teilgenommen haben und die gleiche Informationsgrundlage nutzen. Es ist unerheblich ob ein Teilnehmer bspw. als 1., 2. oder 3. Rater in das Modell aufgenommen wird (allerdings muss diese Ordnung in longitudinalen Modellen beibehalten werden – ein Wechsel der Ordnung zwischen den Messgelegenheiten ist nicht zulässig). Im Mittel unterscheiden sich diese Ratings nicht.

    Strukturell unterschiedliche Methoden zeichnen sich dadurch aus, dass es wesentliche Unterschiede bzgl. der Informationsgrundlage der Methoden gibt. So werden die Trainer und die Teilnehmer des Trainings vermutlich unterschiedliche Blickwinkel einnehmen und unterschiedliche Kriterien zur Einschätzung der Qualität eines Trainings heranziehen. In diesem Fall ist es nicht unerheblich, an welcher Stelle im Datensatz die Trainer zu finden sind (als 1.,2. oder 3. Rater). Strukturell unterschiedliche Methoden können sich im Mittel in ihren Einschätzungen unterscheiden.

    Unter gleichwertigen Methoden werden im Allgemeinen die Indikatoren einer Trait-Methoden-Einheit verstanden. Es kann vorkommen, dass Nuancen in der Bedeutung von Indikatoren zu statistisch bedeutsamen Unterschieden zwischen den Indikatoren führen. Diese zeigen sich dann in sogenannten Autokorrelationen.

    Austauschbare Methoden unterscheiden sich von strukturell unterschiedlichen Methoden dadurch, dass sie einer Zufallsauswahl entsprechen und es unerheblich ist, an welcher Stelle eine austauschbare Methode im Datensatz geführt wird. Gleichwertige Methoden sind ebenfalls austauschbar, allerdings sind die Unterschiede zwischen gleichwertigen Methoden wissenschaftlich oft nicht von Interesse.
  • Worin liegt der Vorteil traitspezifischer Methodeneffekte in MTMM-Modellen?

    Lösung

    Traitspezifische Methodeneffekte modellieren Abweichungen vom vorhergesagten Wert, die sich je nach untersuchtem Konstrukt unterscheiden können. Im Gegensatz zu traitunspezifischen Methodeneffekten müssen sie nicht einer einfaktoriellen Struktur entsprechen, d.h. Rater können die Merkmalsausprägung auf einem Konstrukt Trait bspw. überschätzen während sie die Ausprägung auf einem anderen Merkmal unterschätzen. Traitunspezifische Methodeneffekte bedingen generelle Über- oder Unterschätzungen.
  • Worin besteht der Unterschied zwischen LST- und MTMM-Modellen?

    Lösung

    LST-Modelle können als Spezialfall von MTMM-Modellen aufgefasst werden, wenn Messgelegenheiten als Methoden aufgefasst werden. Die beiden Modellarten unterscheiden sich somit strukturell nicht. Jedoch gibt es Unterschiede in der Anwendung der Modelle, da LST Modelle explizit die zeitliche Schwankung von Merkmalsausprägungen modellieren (wichtige Konzepte: Reliabilität, Konsistenz und Messgelgenheitsspezifität) während MTMM-Modelle vornehmlich in Querschnittsanalysen eingesetzt werden (wichtige Konzepte: konvergente und diskriminante Validität).
  • Bei welchen wissenschaftlichen Fragestellungen sollte das Multioccasion-MTMM-, das Multiconstruct-LST- oder das Multimethod-LST-Modell eingesetzt werden?

    Lösung

    Das Multioccasion-MTMM-Modell bietet sich für Untersuchungen von Messfehlereinflüssen und Methodeneinflüssen an. Veränderungen in den Methodeneinflüssen können hier gezielt analysiert werden. Das Multiconstruct-LST-Modell fokussiert hingegen auf Messfehlereinflüsse und Einflüsse der Messgelegenheiten. Die situationsspezifische Variabilität von Messwerten steht hier im Vordergrund. Im Multimethod-LST-Modell wird auf eine simultane Zerlegung von Einflüssen des Messfehlers, stabilen und zeitlich variablen Einflüssen sowie von gemeinsamen und methodenspezifischen Einflüssen bei Nicht-Standardmethoden fokussiert. Dieses Modell erlaubt die feinste Zerlegung von Messwerten in ihre Bestandteile.
  • Fertig!

    Zurück zu Frage 1
Zurück
Frage 1 von 84
Weiter

Dozentenmaterialien

Hier finden Sie die zum Buch gehörenden Dozentenmaterialien.
Registrieren Sie sich, oder melden Sie sich an, falls Sie bereits registriert sind.

Zusatzmaterialien zum Buch

Hier finden Sie zu einigen Buchkapiteln Hinweise und Anleitungen zur Nutzung von IBM SPSS Statistics oder LISREL als kostenlose Zusatzkapitel im PDF-Format sowie die darin beschriebenen Datensätze zum Download.