Lexikon - Gesamtglossar aller Bücher

  • Begriff
    Erklärung
  • 1PL-Modell
    Dieses Modell der Item-Response-Theorie beschreibt den Zusammenhang zwischen dem beobachtbaren dichotomen Antwortverhalten und dem dahinterstehenden latenten Merkmal auf Grundlage einer Wahrscheinlichkeitsfunktion mit einem Itemparameter, nämlich dem Schwierigkeitsparameter σi.
  • 2PL-Modell
    Im Unterschied zum 1PL-Modell wird bei diesem Modell der Item-Response-Theorie ein zusätzlich zu schätzender Itemparameter λi ins Modell aufgenommen, der die Diskriminierungsfähigkeit des Items (ähnlich der Trennschärfe in der Klassischen Testtheorie) repräsentiert.
  • 3PL-Modell
    In diesem Modell der Item-Response-Theorie wird zusätzlich zu den Parametern des 2PL-Modells noch die Ratewahrscheinlichkeit als Parameter ρi in das Modell aufgenommen und geschätzt.
  • Adaptiver Algorithmus
    Ein Regelsystem, welches die Itemauswahl zu Beginn und während des Tests regelt sowie Kriterien der Testbeendigung spezifiziert.
  • Adaptives Testen
    Ein spezielles Vorgehen bei der Messung individueller Ausprägungen von Personmerkmalen, bei dem sich die Auswahl der zur Bearbeitung vorgelegten Items an der Leistungsfähigkeit des untersuchten Probanden orientiert.
  • Akaike's Information Criterion
    Ein Maß für die Anpassungsgüte des geschätzten Modells an die vorliegenden empirischen Daten (Stichprobe) und die Komplexität des Modells. Daraus hervorgegangen sind BIC und CAIC.
  • Akquieszenz
    Antworttendenz, auf Aussagen (Statements) unabhängig vom Inhalt eher mit Zustimmung zu reagieren.
  • Austauschbare Methoden
    In MTMM-Modellen: Solche Methoden, die einer Zufallsauswahl aus einer Menge gleichberechtigter (gleichadäquater) Methoden entsprechen. Beispielsweise wären verschiedene Messgelegenheiten austauschbar, wenn sie einer Zufallsauswahl entsprechen und keine der Messgelegenheiten sich von den anderen Messgelegenheiten strukturell unterscheidet.
  • Auswahlaufgaben
    Bei diesen Aufgaben sind die Probanden vor die Anforderung gestellt, aus mehreren vorgegebenen Antwortalternativen die richtige bzw. zutreffende Antwort zu identifizieren.
  • Auswertungsobjektivität
    Ein Test entspricht dann diesem Gütekriterium, wenn das Testergebnis unabhängig davon ist, wer den Test auswertet.
  • Autokorrelationseffekt
    In longitudinalen Strukturgleichungsmodellen korrelieren Indikatoren oft stärker über die Messgelegenheiten hinweg als mit anderen Indikatoren derselben Messgelegenheit, die dasselbe Konstrukt messen.
  • Axiom
    Theoretische Grundannahmen, die ohne weitere Überprüfung als gegeben angesehen werden.
  • Bayesian information criterion
    Darunter wird ein dem AIC ähnliches Kriterium der Anpassungsgüte des Modells an die Daten verstanden, das im Unterschied zum AIC die Nicht-Sparsamkeit von Modellparametern stärker bestraft.
  • Bedingte Antwortmusterwahrscheinlichkeit P(av|g)
    Bei der dichotomen Latent Class Analyse (LCA): Wahrscheinlichkeit eines Antwortmusters av unter der Bedingung, dass die Person v zur Klasse g gehört.
  • Bedingte Itembejahungswahrscheinlichkeit P(xvi=1|g)
    Bei der dichotomen Latent Class Analyse (LCA): Wahrscheinlichkeit, mit der ein Item i bejaht wird, wenn die entsprechende Person v zur Klasse g gehört.
  • Bedingte Kategorienwahrscheinlichkeit P(xvi=k|g)
    Bei der polytomen Latent Class Analyse (LCA): Wahrscheinlichkeit, mit der ein Item i mit der Antwortkategorie k beantwortet wird, wenn die entsprechende Person v zur Klasse g gehört.
  • Bedingte Klassenzuordnungswahrscheinlichkeit P(g|av)
    Bei der dichotomen Latent Class Analyse (LCA): Wahrscheinlichkeit, mit der eine Person v mit dem Antwortmuster av zur Klasse g gehört.
  • Beurteilungsaufgaben
    Bei diesen Aufgaben wird der individuelle Zustimmungs- oder Ablehnungsgrad zu einer vorgelegten Aussage (Statement) erfasst.
  • Cognitive Lab
    Der Begriff beschreibt eine explorative Methode zur Untersuchung von Antwortprozessen. Dabei werden Probanden unmittelbar nach der Bearbeitung der Items zu ihrem Lösungsverhalten interviewt oder bei der Bearbeitung der Items gebeten, laut zu denken.
  • Consequential Validity
    Beschäftigt sich mit der Frage, ob mit dem Einsatz eines Testverfahrens das damit in der Praxis verfolgte Ziel erreicht wird.
  • Corrected-Information-Criterion
    Eine Abwandlung des AIC, bei dem der Stichprobenumfang berücksichtigt wird.
  • Cronbachs Alpha
    Koeffizient der internen Konsistenz als Reliabilitätsschätzung. Beruht auf dem Verhältnis zwischen der Summe aus Varianzen und Kovarianzen der Items eines Tests und der Varianz der Testwertvariablen. Je höher die Kovarianzen zwischen den Testitems sind, desto höher wird die interne Konsistenz und damit die Reliabilität.
  • Curriculare Validität
    Bezeichnet die Übereinstimmung von Inhalten eines Tests, der zur Überprüfung der Erreichung eines Lernziels dienen soll, mit den Inhalten des Lehrplans.
  • Debriefing
    Beschreibt die Qualitätssicherungsmaßnahme, nach der Testung den Testleiter nach Besonderheiten während der Testung zu befragen.
  • Deterministische Modelle
    Diese Modelle nehmen an, dass die Wahrscheinlichkeit, ein Item zu lösen, nur 0 oder 1 betragen kann; die Wahrscheinlichkeit, ein Items zu lösen bzw. ihm zuzustimmen, "springt" ab einem bestimmten Punkt auf der Merkmalsdimension (ξ) von 0 auf 1. Die IC-Funktion (Itemcharakteristische Funktion) entspricht einer Sprungfunktion/Treppenfunktion.
  • DIN 33430
    Eine verbindliche Norm von Qualitätsstandards für die verwendeten Tests, die berufsbezogene Eignungsbeurteilung und die einzelnen Ablaufschritte beider.
  • Disjunktheit
    Eigenschaft von Antwortalternativen; liegt vor, wenn zwischen den Antwortalternativen keine Überlappungen vorliegen.
  • Diskriminante Validität
    Gilt im Rahmen der Konstruktvalidierung als nachgewiesen, wenn Messungen verschiedener Konstrukte mit derselben Methode nicht oder nur gering miteinander korrelieren.
  • Diskriminationsindex
    Kennwert zur Identifizierung „nicht trennscharfer“ Items bei der Latent Class Analyse.
  • Distraktoren
    Plausibel erscheinende, aber nicht zutreffende Antwortalternativen bei Auswahlaufgaben.
  • Durchführungsobjektivität
    Ein Test entspricht dann diesem Gütekriterium, wenn das Testergebnis unabhängig davon ist, wer den Test vorgibt.
  • Eichstichprobe
    Eine repräsentative Stichprobe von Probanden, die zur Normierung eines Testverfahrens eingesetzt wird.
  • Eigenwert
    Der Eigenwert eines Faktors gibt an, wie viel Varianz von allen Items (Variablen) durch diesen Faktor erklärt wird.
  • Erschöpfende Statistiken
    Die Zeilen- und Spaltensummenscores einer (0/1)-Datenmatrix werden als solche bezeichnet, wenn die Wahrscheinlichkeit der Daten nicht davon abhängt, welche Personen welche Items gelöst haben, sondern lediglich davon, wie viele Personen ein Item gelöst haben (Schwierigkeit des Items), bzw. wie viele Items eine Person lösen konnte (Fähigkeit der Person). (Auch: "suffiziente Statistiken")
  • Exhaustivität
    Merkmal von Antwortalternativen; liegt vor, wenn alle möglichen Antworten auf den vorgegebenen Antwortalternativen abgebildet werden können.
  • Exploratorische FA
    Ein strukturierendes datenreduzierendes Verfahren, das typischerweise dann zur Anwendung kommt, wenn keine Hypothesen über die Anzahl der zugrundeliegenden Faktoren und über die Zuordnung der beobachteten Variablen zu den Faktoren vorliegen.
  • Exposure Control
    Strategie zur Vermeidung der öffentlichen Bekanntheit von Items durch unerwünscht häufigere Vorgabe der Items oder der Itemgruppen. Kann beim adaptiven Testen leichter erzielt werden.
  • Fairness
    Ein Test erfüllt dieses Gütekriterium, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen.
  • Faktorladung
    Die Gewichtungszahl λjk einer beobachteten Variablen j auf dem latenten Faktor k heißt Faktorladung und beschreibt die Stärke des Zusammenhangs zwischen Faktor und Variable (meist Item). Sie kann bei orthogonal rotierten Faktoren als Korrelation interpretiert werden.
  • Faktorwert
    Der Faktorwert fki gibt an, wie stark ein Faktor Fk bei der i-ten Person ausgeprägt ist.
  • Fehlervarianz Var(ε)
    Die Varianz der Fehlerwerte Var (ε) der Personen stellt in der Klassischen Testtheorie den unerklärten Anteil der Testwertevarianz Var(x) dar.
  • Freies Antwortformat
    Bei Aufgaben mit diesem Antwortformat sind keine Antwortalternativen vorgegeben. Die Antwort wird von der Person selbst formuliert bzw. produziert.
  • Gleichwertige Methoden
    Im Rahmen von MTMM-Modellen solche Methoden, die das zu erfassende Trait gleichwertig repräsentatieren, (z.B. parallele Tests oder Testhälften). Im Unterschied zu austauschbaren Methoden, ist die Erklärung der Methodeneffekte für diese Methoden nachrangig.
  • Hauptachsenanalyse
    Methode der exploratorischen Faktorenanalyse, mit der versucht wird, das Beziehungsmuster zwischen den manifesten Variablen mit dahinterliegenden Faktoren zu erklären.
  • Hauptkomponentenanalyse
    Methode der exploratorischen Faktorenanalyse, mit der versucht wird, möglichst viel Varianz der beobachteten Variablen durch sog. Hauptkomponenten zu erklären.
  • Hierarchisch geschachtelte Modelle
    Mehrere Modelle der konfirmatorischen Faktorenanalyse werden als hierarchisch geschachtelt bezeichnet, wenn sie dieselbe Modellstruktur aufweisen, sich jedoch in der Anzahl der fixierten oder freigesetzten Parameter unterscheiden. Sie heißen hierarchisch geschachtelt, weil in den verschiedenen Modellen zunehmend mehr Parameter fixiert oder freigesetzt werden, so dass sie auseinander hervorgehen, während die Modellstruktur ansonsten erhalten bleibt.
  • Homogenität
    Liegt vor, wenn die verschiedenen Items eines (Sub-)Tests dasselbe Merkmal messen.
  • Informationskriterien
    Maße zur deskriptiven, relativen Beurteilung der Güte eines Modells. Häufig verwendete Informationskriterien sind der AIC, der BIC und der CAIC.
  • Inkrementelle Validität
    Bezeichnet das Ausmaß, in dem die Vorhersage eines externen Kriteriums verbessert werden kann, wenn zusätzliche Testaufgaben oder (Sub-)Tests zu den bereits eingesetzten Verfahren hinzugenommen werden.
  • Interne Konsistenz (Konsistenzanalyse)
    Methode der Reliabilitätsschätzung. Die Kovarianzen zwischen den Items eines Tests werden als wahre Varianz angesehen und zur Bestimmung der Reliabilität verwendet.
  • Interpretationsobjektivität
    Ein Test entspricht dann diesem Gütekriterium, wenn bezüglich der Interpretation der Testwerte eindeutige Richtlinien (z. B. Normentabellen) vorliegen.
  • Invertierte Items
    „Umgepolte“ Items, bei denen nicht die Bejahung, sondern die Verneinung symptomatisch für eine hohe Merkmalsausprägung ist.
  • Item-Response-Theorie (IRT)
    Auch Probabilistische Testtheorie, beschreibt den Zusammenhang zwischen beobachtbarem Antwortverhalten und dem dahinterstehenden Persönlichkeitsmerkmal auf Grundlage eines wahrscheinlichkeitstheoretischen Modells. Dabei wird die Wahrscheinlichkeit für das beobachtbare (gezeigte) Antwortverhalten als von der latenten Merkmalsausprägung abhängig modelliert.
  • Itemcharakteristische Funktion (IC-Funktion)
    Beschreibt die Beziehung zwischen dem latenten Merkmal und dem Reaktionsverhalten der Probanden auf ein Item in Form einer Wahrscheinlichkeitsaussage.
  • Itemhomogenität
    Verschiedene Items sind bezüglich einer latenten Dimension ξ dann homogen, wenn das Antwortverhalten auf die Items nur von diesem Merkmal (der latenten Dimension) und keinem anderen systematisch beeinflusst wird.
  • Itempool
    Eine Menge von Items für die mit einem IRT-Modell Itemhomogenität festgestellt wurde; beim adaptiven Testen können daraus beliebige Items zur Vorgabe ausgewählt werden.
  • Itemschwierigkeit
    Beschreibt in der Klassischen Testtheorie das mit 100 multiplizierte Verhältnis des durchschnittlich erreichten Itempunktwertes zum maximal möglichen Itempunktwert. Je größer der Schwierigkeitsindex, desto leichter ist das Item.
  • Itemselektion
    Beschreibt den Prozess, Items hinsichtlich ihrer Eignung zur Erfassung des interessierenden Merkmals auszuwählen. Neben der Betrachtung deskriptivstatistisch gewonnener Kennwerte (z.B. Itemschwierigeit, Itemtrennschärfe und Itemvarianz) fließen auch inhaltliche und modelltheoretische Überlegungen in den Selektionsprozess ein.
  • Itemtrennschärfe
    Gibt an, wie stark die mit dem jeweiligen Item erzielte Differenzierung zwischen den Probanden mit der Differenzierung durch den Gesamttest übereinstimmt.
  • Itemvarianz
    Maß für die Differenzierungsfähigkeit des Items; es gibt an, wie unterschiedlich die Probanden auf das Item antworten.
  • Itemzwillinge oder Itempaarlinge
    Methode der Aufteilung eines Tests in Testhälften zur Bestimmung der Splithalf-Reliabilität. Items werden in Paare zu zwei Items mit möglichst gleicher Schwierigkeit und Trennschärfe gruppiert. Jeder Testhälfte wird zufällig jeweils eines der beiden Items zugeordnet.
  • Kognitives Vortesten
    Bei diesem Vorgehen legt der Testleiter in Erprobung befindliche Items vor und bittet die Probanden alle Überlegungen, die zur Beantwortung der Frage führen, zu formulieren. Diese Äußerungen werden meist auf Video aufgenommen.
  • Kommunalität

    Die Kommunalität einer Variablen i gibt an, in welchem Ausmaß die wahre Varianz der Variablen durch die extrahierten q Faktoren erklärt wird.

  • Konfidenzintervall
    Kennzeichnet denjenigen Bereich um einen empirisch ermittelten individuellen Testwert xv, in dem sich 95% (99%) aller möglichen wahren Testwerte τv befinden, die den Testwert xv erzeugt haben können.
  • Konfirmatorische FA
    Verfahren zur Datenreduktion, mit dem Hypothesen über die Anzahl der Faktoren, die Korrelationen zwischen den Faktoren und die Zuordnung der beobachteten Variablen zu den einzelnen Faktoren theoriegeleitet überprüft werden. Bildet das sog. Messmodell der Verfahrensgruppe der Strukturgleichungsmodelle.
  • Konsistenz
    Die Konsistenz einer Messvariablen beschreibt das Ausmaß der durch ein Trait erklärten Varianz relativiert an der Gesamtvarianz der Messvariablen.
  • Konsistenzeffekte
    "Treten dann auf, wenn Probanden versuchen, ""stimmige Antworten"" aufgrund ihrer Antworten auf vorangegangene Items zu geben."
  • Konstrukt
    Bezeichnung für ein nicht direkt beobachtbares, aber empirisch verankerbares latentes Persönlichkeitsmerkmal.
  • Konstruktäquivalenz
    Empirisch bestätigte Äquivalenz eines psychologischen Konstrukts über Sprachen und Kulturen hinweg.
  • Konstruktvalidität
    Liegt vor, wenn ein Test tatsächlich das Konstrukt erfasst, das er erfassen soll.
  • Konvergente Validität
    Im Rahmen der Konstruktvalidierung gilt die konvergente Validität als nachgewiesen, wenn Messungen eines Konstrukts, das mit verschiedenen Methoden erfasst wird, hoch miteinander korrelieren.
  • Kriteriumsorientierte Testwertinterpretation
    Bei dieser Form der Testwertinterpretation erfolgt die Interpretation des Testwertes nicht in Bezug zur Testwerteverteilung einer Bezugsgruppe, sondern in Bezug auf ein spezifisches inhaltliches Kriterium. Es wird vorab festgelegt, welches Testverhalten zum Erreichen des Kriteriums führt.
  • Kriteriumsvalidität
    Liegt vor, wenn von einem Testergebnis auf ein für diagnostische Entscheidungen praktisch relevantes Kriterium außerhalb der Testsituation geschlossen werden kann. Kriteriumsvalidität kann durch empirische Zusammenhänge zwischen dem Testwert und möglichen Außenkriterien belegt werden.
  • Latent Class Analyse (LCA)
    Probabilistisches Verfahren zur Kategorisierung von Personen (Objekten) in qualitative latente Klassen.
  • Latent State-Trait-Theorie
    Formale Erweiterung der Klassischen Testtheorie, die neben der Aufteilung der Messvariable Xit einer Messung i zu Messgelegenheit t in eine Messfehlervariable εit und in eine Variable der wahren Werte τit eine Trennung von situationalen und dispositionellen Einflüssen erlaubt. Dazu wird die Variable der wahren Werte τit einer Messung Xit zusätzlich in eine Trait-Variable ξit und in eine State-Residuums-Variable ζit zerlegt: Xit = τit + εit = ξit + ζit + εit
  • Latent-Class-Modelle (IRT)
    Bezeichnung für IRT-Modelle, die davon ausgehen, dass das latente Persönlichkeitsmerkmal zur Charakterisierung von Personenunterschieden aus qualitativen kategorialen latenten Klassen besteht.
  • Latent-Trait-Modelle (IRT)
    Bezeichnung für IRT-Modelle, die davon ausgehen, dass es sich bei dem latenten Persönlickeitsmerkmal zur Charakterisierung von Personenunterschieden um eine quantitative kontinuierliche latente Dimension handelt.
  • Latente Dimension
    Nicht direkt beobachtbare Variable zu Erfassung von Merkmalsausprägungen in Leistungs-, Einstellungs- oder Persönlichkeits­merkmalen, von welchen das manifeste Verhalten als abhängig angesehen wird.
  • Latentes State-Residuum
    Teil eines States, der ausschließlich die Situation und die Interaktion zwischen Person und Situation repräsentiert.
  • Leistungstests
    Tests zur Erfassung der individuellen kognitiven Leistungsfähigkeit in Problemlösesituationen. Beispiele: Intelligenztests, Konzentrationsleistungstests etc.
  • Likelihood (LCA)
    In der Latent Class Analyse (LCA) ist die Likelihood das Anpassungskriterium bei der Parameterschätzung. Es ist dort definiert als das Produkt der unbedingten Antwortmusterwahrscheinlichkeiten P(av) über alle Antwortmuster in der Stichprobe (Na) hinweg.
  • Likelihood-Ratio-Test (LRT)
    Möglichkeit zur inferenzstatistischen Absicherung der Güte eines LCA-Modells: Der Test wird zur inferenzstatistischen Absicherung des Unterschieds zweier geschachtelter Modelle („nested models“) verwendet.
  • Linear-logistische Modelle
    Zerlegen die Schwierigkeitsparameter der Items in für die Bearbeitung des Items erforderliche Basisoperationen. Jeder der Schwierigkeitsparameter wird als Linearkombination einer möglichst geringen Anzahl von Basisparametern ausgedrückt.
  • Lizenzprüfung nach DIN 33430
    Nachweis einschlägiger Kenntnisse von Auftragnehmern (Lizenz A), bzw. Mitwirkenden an Verhaltensbeobachtungen (Lizenz MV) und von Mitwirkenden an Eignungsinterviews (Lizenz ME) gemäß DIN 33430.
  • Lokale stochastische Unabhängigkeit
    Bedingung, die erfüllt sein muss, um die Korrelation zwischen zwei Testitems auf eine dahinterliegende latente Persönlichkeitsvariable zurückführen zu können. Die lokale stochastische Unabhängigkeit liegt dann vor, wenn die Korrelation zwischen den Items verschwindet, wenn man sie auf den einzelnen („lokalen“) Stufen des latenten Persönlichkeitsmerkmals untersucht.
  • Manifeste Variablen
    Variablen zur Erfassung des beobachtbaren Antwortverhaltens mit verschiedenen Items, die Indikatoren für die latente Dimensionen darstellen.
  • Messeffizienz
    Parameter eines Tests, das sich sich durch den Quotienten aus Messpräzision und Testlänge berechnet, wobei letztere häufig durch die Anzahl präsentierten Items quantifiziert wird.
  • Messmodell
    Im Rahmen von Strukturgleichungsmodellen: Teilmodelle, in denen die Zuordnungen der beobachteten Variablen zu den Faktoren erfolgt.
  • Messpräzision
    Grad der Übereinstimmung von wahren Merkmalsauprägungen und den Testwerten. Auf Skalenebene oft durch die mittlere quadratische Abweichung von wahrer und geschätzter Merkmalsausprägung bestimmt.
  • Methodeneffekte
    Ein Sammelbegriff für verschiedene systematische Varianzquellen bei der Multitrait-Multimethod-Analyse, die sich über den Trait hinausgehend auf die Validität der Messung auswirken können. Hierbei kann es sich u.a. um Charakteristika der eingesetzten Messinstrumente, der Beurteiler oder der Situationen, in der eine Messung erfolgt, handeln.
  • Methodenspezifitätskoeffizient
    Gibt den Anteil an beobachteter Varianz wieder, der auf den Einfluss eines Methodeneffektes zurückzuführen ist. Je höher der Methodenspezifitätskoeffizient ausfällt, desto stärker ist der Einfluss der Messmethode auf die Messung.
  • Mischverteilungs-Rasch-Modelle
    Kombination aus Rasch-Modell und Latent-Class-Analyse. Innerhalb jeder Klasse wird versucht, jeweils ein eigenes Rasch-Modell anzupassen. Zwischen den latenten Klassen unterscheiden sich die Parameter des Rasch-Modells.
  • Modelldifferenztest
    Werden mit der konfirmatorischen Faktorenanalyse hierarchisch geschachtelte Modelle spezifiziert und gegeneinander getestet, so kann der Unterschied im Modellfit statistisch über die Differenz der Chi-Quadrat-Werte beider Modelle überprüft werden, die wiederum Chi-Quadrat-verteilt ist.
  • Multidim. adaptives Testen
    Eine spezielle Form des adaptiven Testen bei der mehrere latente Dimensionen als ursächlich für das beobachtete Antwortverhalten angesehen werden; aus den Antworten wird simultan auf mehrere latente Merkmale geschlossen.
  • Multiple Regression
    Mittels einer multiplen Regression wird eine Kriteriumsvariable anhand mehrerer Prädiktoren vorhergesagt.
  • Multitrait-Multimethod-Analyse
    Verfahren zum Nachweis der Konstruktvalidität unter Berücksichtigung einer systematischen Kombination von mehreren Traits und mehreren Messmethoden.
  • Nested Models
    (Geschachtelte) Modelle, die durch Parameterrestriktionen ineinander überführbar sind.
  • Nomologisches Netz
    Beziehungsgeflecht zwischen (latenten) Konstrukten und beobachtbaren Testvariablen dar. Die beiden Ebenen werden mit Axiomen bzw. empirischen Gesetzen beschrieben und durch Korrespondenzregeln miteinander verbunden.
  • Normaktualisierung
    Erneute Testeichung, sobald die empirische Überprüfung der Gültigkeit von Normen ergeben hat, dass sich die Merkmalsverteilung in der Bezugsgruppe seit der vorherigen Testeichung bedeutsam verändert hat.
  • Normalisierung
    Bei der Normalisierung wird eine nicht-normalverteilte Testwertvariable zur besseren Interpretierbarkeit so transformiert, dass die Variable danach normalverteilt ist. Die Normalisierung ist von der Normierung zu unterscheiden, die bei der Testeichung vorgenommen wird.
  • Normdifferenzierung
    Bildung von separaten Normen für die einzelnen Subpopulationen aus der Eichstichprobe hinsichtlich eines mit dem Untersuchungsmerkmal korrelierten Hintergrundfaktors (z.B. separate Normen für Männer und Frauen).
  • Normierung (Testeichung)
    Dient dazu, zur normorientierten Testwertinterpretation Vergleichswerte zu gewinnen. Dazu werden Testergebnisse von Personen einer "Eichstichprobe" in Normierungstabellen zusammengestellt.
  • Normorientierte Testwertinterpretation
    Besteht darin, dass zu einem individuellen Testwert ein Normwert bestimmt wird, anhand dessen die Testperson bezüglich ihrer individuellen Merkmalsausprägung hinsichtlich ihrer relativen Position innerhalb der Bezugsgruppe eingeordnet wird.
  • Normwert
    Beispiel: Prozentrang, zv-Wert. Ermöglicht es, den Testwert xv einer Testperson hinsichtlich seiner Position in der Testwerteverteilung einer bestimmten Bezugsgruppe zu interpretieren.
  • Nützlichkeit
    Ein Test entspricht dann diesem Gütekriterium, wenn die auf seiner Grundlage getroffenen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen.
  • Objektivität eines Tests
    Ein Test entspricht dann diesem Gütekriterium, wenn er dasjenige Merkmal, das er misst, unabhängig von Testleiter, Testauswerter und von der Ergebnisinterpretation misst.
  • Odd-Even-Methode
    Methode der Aufteilung eines Tests in Testhälften zur Bestimmung der Splithalf-Reliabilität. Die Items des Tests werden nach ihrer Schwierigkeit geordnet und abwechselnd den beiden Halbtests zugewiesen. Ein Halbtest enthält so alle ungeradzahligen Items, der andere die geradzahligen Items des Gesamttests.
  • Ordnungsaufgaben
    Diese Aufgaben werden bearbeitet, indem die einzelnen Bestandteile der Aufgabe so umgeordnet oder einander zugeordnet werden, dass idealerweise eine logisch passende Ordnung entsteht.
  • Parallele Tests
    Zwei Tests heißen parallele Tests, wenn sie gleiche wahre Werte und gleiche Fehlervarianzen aufweisen.
  • Paralleltest-Reliabilität
    Methode der Reliabilitätsschätzung. Die Reliabilität eines Tests, von dem zwei parallele Formen existieren, wird über die Korrelation der Testwerte der beiden parallelen Testformen geschätzt.
  • Personenparameter
    Unter Personenparametern versteht man in der IRT die latente Merkmalsausprägung ξv einer Person v, die im Rahmen eines IRT-Modells geschätzt wird.
  • Persönlichkeitsmerkmale
    Persönlichkeitsmerkmale sind mehr oder weniger zeitlich stabile psychische und physische Eigenschaften von Probanden (z.B. Extraversion, Körpergröße).
  • Persönlichkeitstests
    Persönlichkeitstests dienen der Erfassung von individuell typischem Verhalten als Indikator für die Ausprägung von Persönlichkeitsmerkmalen (Verhaltens- oder Erlebensdispositionen).
  • Perzentil
    Bezeichnet jenen Testwert, der einem bestimmten Prozentrang in der Normierungsstichprobe entspricht. Beispielsweise wird derjenige Testwert, welcher von 30% der Testwerte unterschritten bzw. höchstens erreicht wird, als 30. P. bezeichnet.
  • Powertests
    Leistungstests mit eher schwierigen Aufgaben, wobei erhoben wird, welches Schwierigkeitsniveau der Aufgaben der Proband ohne Zeitbegrenzung bewältigen kann. (Auch Niveautests genannt)
  • Probabilistische Modelle
    Gehen im Unterschied zu deterministischen Modellen davon aus, dass die Wahrscheinlichkeit, ein Item zu lösen bzw. ihm zuzustimmen, jeden Wert zwischen 0 und 1 annehmen kann; die IC-Funktion entspricht einer monoton steigenden Funktion.
  • Projektive Tests
    Bei diesen Tests kommt mehrdeutiges Stimulusmaterial (meist Bilder) zum Einsatz. Es wird angenommen, dass Probanden unbewusste oder verdrängte Bewusstseinsinhalte in das Bildmaterial hineinprojizieren und dadurch Persönlichkeitsmerkmale ermittelt werden können.
  • Prozentrang
    Gibt an, wie viel Prozent der Bezugsgruppe bzw. Normierungsstichprobe einen Testwert erzielten, der niedriger oder maximal ebenso hoch ist, wie der Testwert xv der Testperson v.
  • Quartil
    Das erste, zweite bzw. dritte Quartil (Q1, Q2, Q3) ist jener Testwert xv, der von 25%, 50% bzw. 75% der Testwerte unterschritten bzw. höchstens erreicht wird.
  • Rasch-Modelle
    Klasse von spezifisch objektiven Modellen in der IRT (Item-Response-Theorie).
  • Ratekorrektur
    "Zieht bei der Testwertbestimmung jene Anzahl an ""richtigen"" Lösungen ab, die nur durch Erraten der richtigen Antworten entstanden ist."
  • Receiver-Operating-Characteristics-(ROC)-Analyse
    Die Receiver-Operating-Characteristics-(ROC)-Analyse ermöglicht für eine binäre Klassifikation (z.B. krank vs. nicht krank) den zur Fallunterscheidung verwendeten Schwellenwert optimal in der Weise festzulegen, dass Trefferquote und Quote korrekter Ablehnungen maximiert werden.
  • Reliabilität (Gütekriterium)
    Bezeichnet die Messgenauigkeit eines Tests. Ein Testverfahren ist perfekt reliabel, wenn die damit erhaltenen Testwerte frei von zufälligen Messfehlern sind. Je höher die Einflüsse solcher zufälligen Messfehler sind, desto weniger reliabel ist das Testverfahren.
  • Reliabilität (KTT)
    Gütekriterium zur Beurteilung der Messgenauigkeit eines Tests. In der Klassischen Testteorie wird Reliabilität als Verhältnis zwischen true score-Varianz Var(τ) und Testwertevarianz Var(x) definiert.
  • Repräsentative Aufgabenstichprobe
    Stimmt hinsichtlich der Schwierigkeitsverteilung mit der Grundgesamtheit aller merkmalsrelevanten Aufgaben überein und erlaubt somit eine kriteriumsorientierte Testwertinterpretation in Bezug auf die Aufgabeninhalte.
  • Repräsentativität
    Eine Stichprobe weist dieses Merkmal dann auf, wenn sie hinsichtlich ihrer Zusammensetzung die jeweilige Zielpopulation möglichst genau abbildet.
  • Retest-Reliabilität
    Methode der Reliabilitätsschätzung. Ein Test wird zu zwei Messzeitpunkten der gleichen Stichprobe vorgegeben. Die Korrelation der Testwerte beider Messzeitpunkte dient als Maß der Reliabilität des Tests.
  • Retrospektive Befragung
    "In der Testentwicklungsphase wird der Proband ""zurückblickend"" über Schwierigkeiten bei der Beantwortung der einzelnen Items befragt."
  • Schwellenwert
    Im Rahmen kriteriumsorientierter Testwertinterpretation jener Testwert, ab dem das Kriterium als zutreffend angenommen wird. Kann z.B. mittels ROC-Analyse empirisch bestimmt werden.
  • Schwierigkeitsparameter (IRT)
    σi ist ein Itemparameter, der durch jene Merkmalsausprägung ξ definiert ist, bei der die Lösungswahrscheinlichkeit des Items 50% beträgt.
  • Sicherung
    Die Pflicht zur Regelung der Verfügbarkeit, Aufbewahrungsdauer und Verwendung von Testdaten (inkl. des Testprotokolls und aller schriftlichen Belege) und Schutz der Identität von Probanden.
  • Skalierung
    Ein Test erfüllt dieses Gütekriterium, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsrelationen adäquat abbilden.
  • Soziale Erwünschtheit
    Beinhaltet die Antworttendenz eines Probanden, sich selbst so darzustellen, wie es soziale Normen seiner Wahrnehmung nach erfordern (auch soziale Desirabilität genannt).
  • Spearman-Brown-Korrektur
    Formel zur Schätzung der Reliabilität eines Tests bei Verlängerung des Tests um homogene Testteile; findet auch bei der Splithalf-Reliabilität Verwendung, bei der die Halbtest-Reliabilität auf die Reliabilität des Gesamttests aufgewertet wird.
  • Speedtests
    Leistungstests mit meist einfachen Aufgaben, wobei erhoben wird, wie viele Aufgaben unter Zeitdruck gelöst werden können. (Auch: Geschwindigkeitstests)
  • Spezifische Objektivität
    Liegt vor, wenn alle IC-Funktionen die gleiche Form aufweisen, d.h. lediglich entlang der ξ-Achse parallel verschoben sind. Ist dies der Fall, kann der Schwierigkeitsunterschied zweier Items (σj - σi) unabhängig davon festgestellt werden, ob Personen mit niedrigen oder hohen Merkmalsausprägungen ξ untersucht wurden. In Umkehrung kann auch der Fähigkeitsunterschied zweier Personen (ξw – ξv) unabhängig von den verwendeten Items festgestellt werden.
  • Spezifität
    Beschreibt das Ausmaß der durch die Situation und die Person-Situation-Interaktion erklärten Varianz relativiert an der Gesamtvarianz einer Messvariablen.
  • Splithalf-(Testhalbierungs-) Reliabilität
    Methode der Reliabilitätsschätzung. Aus den Items eines Tests werden zwei möglichst parallele Testhälften gebildet. Aus der Korrelation der Testwerte der Halbtests wird mittels Spearman-Brown-Korrektur die Reliabilität des Gesamttests geschätzt.
  • Standardabweichung SD(x)
    Die Standardabweichung gibt die Streuung der Testwertvariable x-quer um den Mittelwert an. Ist die Testwertvariable normalverteilt, so befinden sich im Bereich xquer ± 1 /SD(x) ca. 68% der Testwerte, im Bereich xquer ± 2 /SD(x)ca. 95% der Testwerte.
  • Standardmessfehler SD(ε)
    Der Standardmessfehler SD(ε) eines Tests resultiert aus der Unreliabilität des Tests und errechnet sich als Wurzel aus der Fehlervarianz eines Tests. Der Standardmessfehler ist bei höherer Reliabilität kleiner und bei niedrigerer Reliabilität größer.
  • Standardnormen
    Die z-Norm sowie weitere durch Lineartransformationen gewonnene Normen (z.B. IQ- oder T-Norm).
  • State
    Ein zeitlich begrenzter biologischer, emotionaler und kognitiver Zustand, in dem sich eine Person befinden kann. Er kennzeichnet sich durch personenbedingte (d.h. trait-bedingte), situativ bedingte und durch die Interaktion zwischen Person und Situation bedingte Einflüsse.
  • Stichprobenunabhängigkeit
    Bedeutet, dass in IRT-Modellen die Itemparameter unabhängig von den Personen und die Personenparameter unabhängig von den Items geschätzt werden können.
  • Strukturell unterschiedliche Methoden
    Solche Methoden, die nicht austauschbar sind, weil sie sich qualitativ von anderen Methoden unterscheiden und kein Zufallsauswahl darstellen. Strukturell unterschiedliche Methoden sind z.B. Selbst- und Fremdbeurteilungen.
  • TBS-TK
    Veröffentlichtes Testbeurteilungssystem des Testkuratoriums zur standardisierten Erstellung und Publikation von Testrezensionen anhand eines vorgegebenen Kriterienkataloges.
  • Teaching to the test
    Ist ein Phänomen, das die Validität bewertender Interpretationen im Bildungssystem dadurch gefährdet, dass gezielt spezielle Aufgaben geübt werden, um ein besseres Abschneiden der Schülerinnen und Schüler bei den Tests zu gewährleisten.
  • Tendenz zur Mitte
    Eine Antworttendenz, die extreme Antworten eher vermeidet und mittlere Antwortkategorien eher bevorzugt.
  • Testadaptation
    Bezeichnet den Prozess einer qualitativ hochwertigen Übertragung (Übersetzung unter Berücksichtigung von Konstruktäquivalenz) und empirischen Evaluation psychologischer Tests aus anderen Sprachen und in andere Sprachen unter Beachtung der kulturellen Unterschiede.
  • Testeichung
    Dient dazu, Normwerte zur normorientierten Testwertinterpretation zu gewinnen. Dazu wird der Test an Personen einer Normierungsstichprobe, welche hinsichtlich einer definierten Bezugsgruppe repräsentativ ist, durchgeführt.
  • Testgütekriterien
    Stellen ein System zur Qualitätsbeurteilung psychologischer Tests dar. Folgende 10 werden üblicherweise unterschieden: Objektivität, Reliabilität, Validität, Skalierung, Normierung (Eichung), Testökonomie, Nützlichkeit, Zumutbarkeit, Unverfälschbarkeit und Fairness.
  • Testitem
    Zu beantwortende Aufgabe (Frage, Statement etc.) eines Tests.
  • Testkuratorium
    Gremium der Föderation Deutscher Psychologievereinigungen (Deutsche Gesellschaft für Psychologie e.V. und Berufsverband Deutscher Psychologinnen und Psychologen e.V.), dessen Aufgabe es ist, die Öffentlichkeit vor unzureichenden diagnostischen Verfahren und vor unqualifizierter Anwendung diagnostischer Verfahren zu schützen.
  • Testökonomie
    Ein Test entspricht dann diesem Gütekriterium, wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig Ressourcen wie Zeit, Geld oder andere Formen beansprucht.
  • Teststandards
    Vereinheitlichte Leitlinien, in denen sich allgemein anerkannte Zielsetzungen zur Entwicklung, Adaptation, Anwendung und Qualitätsbeurteilung psychologischer Tests widerspiegeln.
  • Testwert
    Das individuelle numerische Testresultat; wird aus den registrierten Antworten einer Testperson durch Anwendung definierter Regeln unmittelbar gebildet.
  • Testwertestreuung SD(x)
    Sagt aus, wie breit die empirisch gewonnenen Testwerte einer Stichprobe um den Mittelwert der Testwerte verteilt sind. Die Streuung der Testwerte wird meist als Standardabweichung SD(x) angegeben; man gewinnt sie als Wurzel aus der Testwertevarianz Var(x).
  • Testwertevarianz Var(x)
    Die Testwertevarianz Var(x) ist die Varianz der beobachteten Testwerte. Sie setzt sich aus der wahren Varianz Var(τ) und der Fehlervarianz Var(ε) zusammen.
  • Trait
    Mehr oder weniger zeitlich stabiles Merkmal (Disposition), das personeninhärent und transsituativ überdauernd ist.
  • Trait-Methoden-Einheit
    In der Multitrait-Multimethod-Analyse wird angenommen, dass in jeder Messung Einflüsse des zu messenden Konstrukts und der verwendeten Messmethode zu finden sind. (Multiple) Messungen eines Traits repräsentieren somit eine Trait-Methoden-Einheit.
  • Treffsicherheit
    Index zur Beurteilung der Güte eines LCA-Modells. Definiert als die durchschnittliche Höhe der maximalen bedingten Klassenzuordnungswahrscheinlichkeit Pmax(g|av) über alle in der Stichprobe vorkommenden Antwortmuster (Na) hinweg.
  • True Score τv
    Der "true score" bzw. wahre Wert τv ist die wahre Ausprägung des Probanden v in dem von einem Test gemessenen Merkmal. Da Messungen in der Regel fehlerbehaftet sind, stimmen Testwert xv und wahrer Wert τv nicht völlig überein. Ein Konfidenzintervall für τv kann mit Hilfe des Standardmessfehlers bestimmt werden.
  • Unbedingte Antwortmusterwahrscheinlichkeit P(av)
    Bei der dichotomen LCA: Wahrscheinlichkeit eines Antwortmusters av in der Stichprobe.
  • Unbedingte Itembejahungswahrscheinlichkeit P(xvi=1)
    Bei der dichotomen LCA: Wahrscheinlichkeit, mit der ein Item i bejaht wird.
  • Unbedingte Kategorienwahrscheinlichkeit P(xvi=k)
    Bei der polytomen LCA: Wahrscheinlichkeit, mit der ein Item xvi mit der Antwortkategorie k beantwortet wird.
  • Unbedingte Klassenzuordnungswahrscheinlichkeit P(g)
    Bei der dichotomen LCA: Wahrscheinlichkeit, mit der eine beliebige Person v zur Klasse g gehört (auch: relative Klassengröße πg).
  • Unverfälschbarkeit
    Liegt vor, wenn das Verfahren derart konstruiert ist, dass die zu testende Person durch vorgetäuschtes Verhalten ("Faking") die konkreten Ausprägungen ihrer Testwerte nicht steuern bzw. verzerren kann.
  • Validität
    Ein Test entspricht dann diesem Gütekriterium, wenn er das Merkmal, das er messen soll, auch wirklich misst und nicht irgendein anderes. Bezeichnet darüber hinaus die Menge der zutreffenden Schlussfolgerungen, die aus einem Testergebnis gezogen werden können.
  • Wahre Varianz
    Die wahre Varianz Var(τ) ist die Varianz der wahren Werte τv in einem Test. Sie ist meistens niedriger als die Testwertevarianz Var(x). Aus dem Verhältnis beider Varianzanteile resultiert in der KTT die Reliabilität.
  • zv-Normwert
    Gibt an, wie stark der Testwert xv einer Testperson v vom Mittelwert xquer der Verteilung der Bezugsgruppe in Einheiten der Standardabweichung SD(x) abweicht.
  • Zeitpartitionierungsmethode
    Methode der Aufteilung eines Tests in Testhälften zur Bestimmung der Splithalf-Reliabilität, wobei die Testhälften aus den Items von zwei jeweils gleich langen Bearbeitungsabschnitten gebildet werden.
  • Zielpopulation
    Im Rahmen der Testeichung diejenige Bezugsgruppe, für welche die zu erstellenden Testnormen gelten sollen und aus der entsprechend die Normierungsstichprobe zu ziehen ist.
  • Zumutbarkeit
    Liegt vor, wenn ein Test absolut sowie relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende Person in zeitlicher, psychischer sowie körperlicher Hinsicht nicht über Gebühr belastet.
  • τ-Äquivalenz
    Zwei Tests p und q heißen τ-äquivalent, wenn beide den gleichen wahren Wert τ messen.