Danish Adult Reading Test

(DART)



Itemanalyse og analyse af

interscorer reliabilitet mhp. revision





Københavns Universitet

Speciale udført af Inge Dalsgaard Psykologisk Laboratorium

Vejledere: Anders Gade og Tom Teasdale Juni 1998





Forord



Dette speciale er lavet på neuropsykologisk grenspecialisering på psykologistudiet på Københavns Universitet i perioden september 1996 - juni 1998.



Tak til mine vejledere Anders Gade og Tom Teasdale for megen og grundig vejledning. Og tak til de otte neuropsykologer, som tog sig tid til at score 30 båndede forsøgspersoner. De er Kasper Jørgensen, Palle Møller Pedersen, Hanne Udesen, Agnete Jønsson, Charlotte Høeg, Anne-Mette Guldberg, Rikke Lomholt og Anders Gade. Uden deres indsats ville en meget vigtig baggrund for revisionen af DART mangle.



Juni 1998

Inge Dalsgaard





Indholdsfortegnelse



I. Indledning 1



II. Metoder til vurdering af præmorbid intelligens 2

II.a. WAIS ordforråd 3

II.b NART 3

II.b.1 NARTs reliabilitet 5

II.b.2 NARTs validitet som mål for intelligens: normale forsøgspersoner 5

II.b.3 NARTs validitet som mål for præmorbid intelligens: patientgrupper 6

Alkoholisk demens (7); Alzheimer demens (7); Depression (8); Gliomer (9); HIV infektion (9); Hjernerystelse (9); Huntingtons sygdom (9); Korsakoffs psykose og Korsakoffs syndrom (9); Kortikal atrofi (10); Lukket kranietraume (10); Multi-infarkt demens (10); Skizofreni (10)

II.c. Demografiske data 13

II.d. En kombination af NART og demografiske data 14



III. Analyser af DART 15

III.a. Første analyse - itemanalyse 15

III.a.1 Metode 15

Personer (15); Materiale (16); Itemanalyse som statistisk metode (16)

III.a.2 Resultater 17

III.b. Anden analyse - af interscorer reliabilitet 18

III.b.1 Metode 18

Materiale (18); Personer (18); Kappa statistik (18)

III.b.2 Resultater 19

III.c. Tredie analyse - udtaleregler 20

III.d. Kombineret resultat 20



IV. DART/DART45 sammenlignet mht. psykometriske testdata/Revision eller ikke 21

IV.a. DART/DART45s reliabilitet 21

IV.b. DART/DART45s validitet som mål for intelligens 22

"Principal Component Analysis" (PCA) 23

IV.c. Revision eller ikke? 24



V. Normer for DART45 25



VI. Sammenligning af DART45-resultater for 141 normale forsøgspersoner og 71 atrofiske patienter 26

VI.a. Metode 26

Personer 26

Materiale 27

VI.b. Resultater 27



VII. Nye metoder til vurdering af præmorbid intelligens 27

VII.a. Spot-the-Word 28

VII.b. Cambridge Contextual Reading Test (CCRT) 29

VII.c. DART45 i kontekst 31

VIII. Konklusion 31



Referencer 35



Bilag 1-13 41-56





I. Indledning



Inden for neuropsykologien er det vigtigt at kunne estimere en patients præ-morbide intelligens. Man kan have brug for at kende en patients præmorbide intelligens af forskellige grunde. I forskning og klinisk praksis er det vigtigt at kunne afgøre om en patient har lidt et tab eller ikke og eventuelt kunne estimere hvor stort et tab. Når man skal vurdere en patients forringelse på kognitive tests, vil det være utilstrækkeligt at sammenligne patientens testpræstation med relevante testnormer, da der er store individuelle forskelle i kognitive funktioner i den al-mindelige befolkning. Sammenligningen skal foretages med patientens egen præmorbide status.



Lezak (1995) opererer med direkte og indirekte måling af reduktion. Direkte måling af tab med brug af individuel sammenligningsstandard kan lade sig gøre uden problemer, hvis der foreligger præmorbide testresultater fra patienten. Under-søgeren sammenligner præmorbide og nuværende testresultater og vurderer uoverensstemmelserne. Sådanne testresultater foreligger dog sjældent. Ved in-direkte måling af tab sammenligner undersøgeren patientens nuværende resultater med en vurdering af patientens oprindelige niveau. Denne vurdering kan laves på forskellig vis. Det er undersøgerens opgave at finde den bedste og mest menings-fulde vurdering af patientens præmorbide niveau til brug som sammenlignings-standard for den enkelte patient.



Der er igennem tiderne blevet benyttet forskellige metoder hertil.



Når man i Danmark skal vurdere en patients præmorbide intelligens benyttes i stor udstrækning den danske udgave af læsetesten National Adult Reading Test (NART) (Nelson, 1978) kaldet Danish Adult Reading Test (DART), som er lavet af A. Gade i 1980 (findes i S-81, Gade, 1994).



Som det er tilfældet med de fleste nyere tests, kommer de psykometriske testdata først til efter at testen har været i brug i en årrække, og dette speciale skal bl.a. ses som et bidrag til belysningen af DARTs psykometriske testegenskaber såvel som en perspektivering af NART i forhold til andre metoder til vurdering af præ-morbid intelligens. Her kan nævnes andre tests af nuværende evner, såsom WAIS ordforråd, brug af demografiske data samt en kombination af NART og demo-grafiske data. Der er endvidere udviklet to nye tests på området, som jeg vil kom-me ind på. Perspektiveringen af NART/DART vil ske både på baggrund af den udenlandske litteratur vedr. NART og ud fra egne beregninger.



Der vil blive foretaget en itemanalyse af DART på baggrund af et normalmateriale (141 normale forsøgspersoner) indsamlet i 80'erne på Rigshospitalet.



DARTs interscorer reliabilitet vil blive undersøgt ud fra 8 neuropsykologers scoring af 30 båndede forsøgspersoners testresultater på DART. Materialet er indsamlet i 1997.



Der vil ligeledes blive foretaget en undersøgelse af udtaleregler for de enkelte ord.



Itemanalysen af DART og undersøgelsen af testens interscorer reliabilitet samt undersøgelsen af udtaleregler kan resultere i en revision af den nuværende test.



DART og den reviderede DART45 vil blive sammenlignet mht. psykometriske testdata, ligesom der vil blive fremstillet normer for den reviderede test.



DART45-resultater fra en normalgruppe og en atrofigruppe vil blive sammenlignet.



Der diskuteres til slut en eventuel videreudvikling af DART.



Jeg ønsker at gøre dette speciale så anvendeligt som muligt for brugere af DART, hvorfor der vil blive lagt vægt på stringens og præcision i beskrivelsen, såvel som opslagsvenlighed.





II. Metoder til vurdering af præmorbid intelligens



Efter at have gennemlæst den udenlandske litteratur om vurdering af præmorbid intelligens er det mit indtryk, at de oftest benyttede metoder p.t. er følgende: en vurdering baseret på demografiske variable, NART, eller en kombination af de to.



Ovennævnte vil blive gennemgået i det følgende. Desuden vil også WAIS ord-forråd blive analyseret, da denne blandt andre findes som prædikator for præ-morbid intelligens i programmet SCORING (Mortensen og Gade, 1994), som anvendes blandt neuropsykologer i Danmark.



Der er endvidere udviklet en test "Spot-The-Word" (Baddeley et al., 1993), som involverer leksikal stillingtagen på den måde, at man af to ord, hvoraf et er et rig-tigt ord og det andet et non-ord, skal udpege det rigtige. En anden nyudvikling på området er Cambridge Contextual Reading Test (Beardsall og Huppert, 1994), som er en decideret videreudvikling af NART. NART-ordene sættes simpelthen ind i en kontekst. For de to sidstnævnte foreligger kun få psykometriske testdata og de gennemgås i et senere afsnit.



I det følgende vil NART blive perspektiveret i forhold til ovennævnte metoder til vurdering af præmorbid intelligens. Da det er DART, der er i fokus for dette speciale, vil det også være her man finder den mest minutiøse gennemgang af litteraturen, hvorimod de konkurrerende metoder vil blive gennemgået mere overordnet og i særdeleshed blive trukket frem, hvor de er at foretrække frem for NART/DART.



Indledningsvist skal nævnes, at når man benytter tests af nuværende evner til måling af præmorbid intelligens skal testen opfylde forskellige kriterier for at være valid til dette formål. Den skal være reliabel. Den skal korrelere højt med IQ i nor-malbefolkningen. Og den skal i høj grad være resistent over for hjerneskade (Crawford, 1989).



II.a. WAIS ordforråd



Internationalt set er WAIS vocabulary (vocabulary benyttes når resultaterne ved-rører resultater fra udlandet) mest af historisk interesse i forbindelse med vurdering af præmorbid intelligens. Den har dog tidligere været den oftest benyttede test til dette formål. WAIS vocabulary har da også både høj reliabilitet og høj validitet i forbindelse med måling af intelligens (Crawford, 1989). Men den er ikke tilstræk-kelig resistent over for hjerneskade. Nelson og McKenna (1975) lavede en regres-sionsligning for at kunne forudsige WAIS IQ ud fra vocabulary aldersgraderede skalerede scores. De sammenlignede resultaterne fra 98 normale og 45 demente forsøgspersoner og fandt, at resultaterne fra de to grupper var signifikant forskel-lige for vocabulary (p<0,01). Hart et al. (1986) fandt, at Alzheimer patienter (20 personer) opnåede en signifikant lavere vocabulary estimeret IQ (med Nelson og McKennas regressionsligning, 1975) end en kontrolgruppe (15 personer) med sammenlignelig alder og uddannelse (p<0,01). Crawford, Parker og Besson (1988) testede en række patienter med forskellige neurologiske sygdomme med bl.a. vocabulary og fandt, at patienter med Korsakoffs psykose, alkoholisk demens, Huntingtons sygdom, Alzheimers sygdom og multi-infarkt demens havde signifikant dårligere estimerede IQ-scores beregnet ud fra vocabulary med Nelson og McKennas regressionsligning end en kontrolgruppe, der var individuelt matchet mht. køn, alder og uddannelse. Sharpe og O'Carroll (1991) sammenlignede voca-bulary og NARTs evne til at estimere præmorbid IQ i en gruppe demente. De fandt, at NART estimeret IQ var signifikant højere end vocabulary estimeret IQ og WAIS-R-score. Mikkelsen et al. (1988) undersøgte sammenhængen mellem det at være udsat for organiske opløsningsmidler og mulig hjerneskade i en gruppe malere. De fandt ingen signifikant association mellem CT-mål for størrelse af ventrikler og sulci og WAIS ordforråd for denne gruppe og anvendte da også selv denne test såvel som andre "hold" tests til at vurdere præmorbide resultater fra "don't-hold" tests.



Sammenfattende kan siges, at vocabulary i den seneste litteratur vedr. præmorbid intelligens - med en enkelt undtagelse - ikke nævnes som anvendelig mulighed på dette felt.



II.b NART



NART blev konstrueret i 1977 af Hazel E. Nelson og efter publikationen af manu-alen i 1982 blev den hurtigt den foretrukne test til vurdering af præmorbid intel-ligens. Den danske udgave af testen (DART) blev udarbejdet i 1980 af Anders Gade og vandt ligeledes hurtigt indpas på dette område.



Kort beskrevet består NART af 50 relativt korte enkeltord, der skal læses højt. Ordene har ikke-lydret udtale. De følger derfor ikke normale grafem-fonem udtale-regler. NART baseres på teorien om, at der er to hovedlæseruter: Den semantiske rute og den fonologiske rute.



Den semantiske rute, hvor det trykte ord matches med dets leksikale indgang, hvilket via det semantiske system giver adgang til den tilsvarende fonologiske form. Her forudsættes det, at man kender ordets mening.



Den fonologiske rute, hvor ordets individuelle grafemer identificeres og udtales ifølge grafem-fonem udtaleregler. Her forudsættes ikke kendskab til ordet.



Ifølge Nelson og O'Connell (1978) er NARTs styrke, at NART-ordene pga. deres ikke-lydrette udtale er uegnede til den fonologiske rute. Derfor forudsættes det, at den testede må benytte den semantiske rute og således have forudgående kend-skab til ordets mening for at kunne læse ordet korrekt. Det antages derfor også, at når den testede udtaler ordet forkert, skyldes dette, at det trykte ord ikke har en leksikal indgang, dvs. er ukendt for den testede. Ordene er korte, fordi den testede så ikke skal analysere komplekse visuelle stimuli, hvilket stiller minimale krav til nuværende kognitiv kapacitet. DART er konstrueret efter samme principper.

Den første udgave af NART kaldtes New Adult Reading Test (Nelson, 1977). Senere fik den navnet National Adult Reading Test, men forblev i samme form.



Testen er blevet revideret flere gange.



I 1989 lavede Blair og Spreen en nordamerikansk revision af NART (The New Adult Reading Test-Revised, NART-R) og standardiserede den overfor WAIS-R. Denne udgave indeholder 61 ord og ordene scores ifølge amerikanske og canadiske udtaleregler.



I 1991 dukkede AMNART op i litteraturen (Grober og Sliwinski). Det er en ameri-kansk udgave af NART lavet af Schwartz og Saffran i 1987. I denne udgave er 23 britiske ord udskiftet med 23 amerikanske ord af sammenlignelig hyppighed.



John R. Crawford reviderede NART i UK i 1990 (NART-R UK). I den reviderede udgave erstattedes 8 ord med lav interscorer reliabilitet med 8 nye ord med høj interscorer reliabilitet. Crawford havde konstateret, at scorerne var signifikant for-skellige mht. strenghed/mildhed i scoringen (Crawford, Parker, Stewart, Besson og De Lacey, 1989). Det viste sig, at ordene med lav interscorer reliabilitet var hoved-årsagen til forskelligheden mht. strenghed/mildhed. Derfor blev de erstattet med nye. NART-R UK standardiseredes overfor WAIS-R i sin fulde længde.



I 1991 blev NART re-standardiseret i UK overfor WAIS-R i kort form af Nelson og Willison. Den kaldtes "The revised National Reading Test".



Nielsen et al. (1995) arbejdede med en modificeret udgave af DART på ialt 45 ord, hvoraf visse af de oprindelige ord var udskiftet med andre.



II.b.1 NARTs reliabilitet



NART har ifølge forskellige undersøgelser en meget høj reliabilitet .



"Split-half" reliabilitet rapporteres som værende 0,93 af Nelson (1982). Crawford, Stewart, Garthwaite et al. (1988) opnåede en "split-half" koefficient på 0,90. NART har således høj intern konsistens.



NARTs "test-retest"-koefficient er 0,98 (Crawford, Parker, Stewart et al., 1989). Man fandt et signifikant fald i NART fejl (p<0,05) ved gentestningen, men faldet var på mindre end 1 NART fejl. Forfatterne afviser på den baggrund, at øvelse har nogen særlig praktisk betydning.



O'Carroll (1987) lavede en pilot undersøgelse af NARTs interscorer reliabilitet. 12 båndede patienters testresultater blev scoret af 10 erfarne kliniske psykologer. Analyserne baseredes på den totale testscore. Han fandt korrelationer (45) der lå mellem 0,99 og 0,89. Crawford, Parker, Stewart et al. (1989) fandt ligeledes høj interscorer reliabilitet. I denne undersøgelse indgik 40 patienters båndede test-resultater. Disse blev scoret af 5 kliniske psykologer med erfaring i testen og 5 kliniske psykologer uden erfaring i testen. Korrelationerne (Pearson product moment) for de erfarne scorere lå mellem 0,96 og 0,98. Samme resultat sås for den samlede gruppe scorere. I denne undersøgelse fandtes også den tidligere nævnte forskel mellem scorerne mht. mildhed/strenghed, som bl.a. var årsag til en senere revision af testen. Man undersøgte endvidere den procentvise enighed mellem scorerne for de enkelte ord og fandt enkelte ord med en så lav procentvis enighed, at de senere blev erstattet med nye i ovennævnte revision af NART.



Den nordamerikanske udgave af NART, NART-R (Blair og Spreen, 1989) har en koefficient Alpha på 0,94 og en interscorer reliabilitet på 0,99 (p<0,001).



Henry Nielsen et al. (1995) benyttede en delvist modificeret og forkortet udgave af DART (45 ord) i deres undersøgelse og fandt en høj Cronbach's Alpha på 0,94.



II.b.2 NARTs validitet som mål for intelligens: normale forsøgspersoner



Crawford, Stewart, Cochrane et al. (1989) undersøgte NARTs begrebsvaliditet ved at lave en faktoranalyse på resultater fra NART og WAIS-delprøver fra 139 nor-male forsøgspersoner. NART vejede tungt på faktor I (0,85 ved "principal com-ponents analysis" (PCA)), hvilket tyder på at NART har høj begrebsvaliditet som mål for generel intelligens ("g"). Efter Varimax rotation af de tre faktorer udregnet ved PCA vejede NART tungt på faktor I (verbal intelligens), men ikke på faktor II (perceptuel organisation/non-verbal intelligens) eller faktor III (opmærksomhed/kon-centration). Rationalet bag brugen af NART er, at testen udnytter de testedes tid-ligere viden, mens den i mindre grad stiller krav til nuværende kognitive evner. Undersøgelsens resultater bekræfter dette.



I Nelsons (1982) oprindelige undersøgelse forudsagde NART henholdsvis 55%, 60% og 32% af variansen i WAIS "Full scale", verbal og performance IQ (ud fra 7 delprøver i WAIS, såkaldt kort form). I en krydsvalideringssample (n=151) (Crawford, Parker, Stewart et al., 1989) med Nelsons (1982) regressionsligninger forudsagde NART henholdsvis 66%, 72% og 33% af variansen i WAIS FSIQ, verbal og performance IQ (ud fra en fuld WAIS). Standardiseringssamplen og krydsvalideringssamplen kombineredes og ud fra disse beregnedes nye regres-sionsligninger (ud fra WAIS kort form) (n=271). Disse ligninger forudsagde 57%, 63% og 31% af variansen i FSIQ, verbal og performance IQ. Ifølge forfatterne bør disse ligninger foretrækkes, dels fordi de er baseret på en større sample udtaget fra mere end et geografisk område og dels fordi spredningen i IQ og alder i kryds-valideringssamplen er større end i standardiseringssamplen. Der udregnedes end-videre regressionsligninger baseret på krydsvalideringssamplen alene (ud fra en fuld WAIS). NART er således et godt redskab til forudsigelse af WAIS FSIQ og verbal IQ.



Sharpe og O'Carroll (1991) fandt en korrelation på 0,77 mellem NART og WAIS-R FSIQ i en gruppe af normale forsøgspersoner.



I Blair og Spreens (1989) NART-R fandtes korrelationer mellem faktisk og forud-sagt FSIQ, verbal og performance IQ på basis af NART-R på 0,75, 0,83 og 0,40 (alle p<0,001). Berry et al. (1994) testede NART-Rs retrospektive præcision, således at NART-R resultaterne skulle estimere WAIS-R IQ hos normale ældre testet 3,5 år tidligere. NART-R estimeret FSIQ korrelerede 0,7 med WAIS-R.



Crawfords reviderede udgave af NART (NART-R UK) forudsagde 59% af varians-en i WAIS-R FSIQ (Crawford, 1992).



Mockler et al. (1996) sammenlignede Nelson og Willisons re-standardiserede NART fra 1991 med Crawfords reviderede NART-R UK fra 1990 for at afgøre hvilken af de to udgaver var den bedste til at forudsige WAIS-R IQ. Korrelationer mellem WAIS-R IQ og hhv. NART og NART-R UK var for FSIQ 0,621 og 0,663, for verbal IQ 0,699 og 0,733 og for performance IQ 0,372 og 0,413. Validitetskoeffi-cienterne for NART-R UK var således højere end for den re-standardiserede NART og hvad angår FSIQ og verbal IQ signifikant forskellige.



Henry Nielsen et al. (1995) fandt en korrelation på 0,45 mellem den modificerede og forkortede DART og "generel intelligens" (p<0,001).



Opsummerende kan siges, at NART er et gyldigt redskab til forudsigelse af WAIS og WAIS-R FSIQ og verbal IQ og "g", men ikke performance IQ.



II.b.3 NARTs validitet som mål for præmorbid intelligens: patientgrupper



NART er ofte rutinemæssigt blevet anvendt som mål for præmorbid intelligens for forskellige grupper af hjerneskadede, inden testens validitet som sådan er blevet testet. NARTs validitet som mål for præmorbid intelligens kræver, at testen i høj grad er resistent over for hjerneskade.



Behovet for en prøve som NART varierer. For sygdomme, hvor reduktionen kan forventes at være beskeden, er behovet stort, da det kan være svært overhovedet at påvise en reduktion uden et præcist mål for præmorbid intelligens. For eksem-pelvis svær demens er behovet ringe, da ingen er i tvivl om sygdommens tilstede-værelse.



I det følgende vil blive gennemgået forskellige undersøgelser, hvori NARTs resi-stens over for forskellige typer og forskellige sværhedsgrader af hjerneskade er blevet testet. Tabel 1, side 12 viser en oversigt over undersøgelserne.



Alkoholisk demens



I Crawford, Parker og Bessons (1988) undersøgelse af præmorbid intelligens i for-skellige organiske tilstande fandtes ikke signifikant forskellige NART-scores for alkoholisk demente (n=12) og disses kontrolgruppe. Forfatterne konkluderede, at NART er valid som mål for præmorbid intelligens for denne gruppe.



Alzheimer demens



Adskillige undersøgelser rapporterede om ikke signifikant reduceret NART-score ved tidlig demens (Cummings et al., 1986; O'Carroll og Gilleard, 1986; Crawford, Parker og Besson, 1988; Sharpe og O'Carroll, 1991). O'Carroll, Baikie og Whittick (1987) testede 30 ældre, der var klinisk diagnosticerede som demente, med et års mellemrum og fandt ingen signifikant reduktion i NART-score. Resultater på under-søgelsens andre kognitive tests udviste den forventede reduktion efter et år. For-fatterne understregede dog, at NART-scoren rent faktisk viste et fald i et års peri-oden, bare ikke et signifikant fald. En anden longitudinel undersøgelse (Fromm et al., 1991), hvor personer med Alzheimers sygdom og en kontrolgruppe blev testet med et års mellemrum i en periode på 3 år, viste, at kontrolgruppen opnåede en signifikant bedre NART-score end Alzheimergruppen på alle tre tidspunkter og desuden at Alzheimergruppen scorede signifikant dårligere over tid. NART-resul-taterne korrelerede kun signifikant med demensgrad ved den tredie og sidste test-ning. Forfatterne konkluderede, at undersøgelsen pegede i retning af, at NART kun er sensitiv over for demens i sygdommens senere stadier. I denne undersøgelse anvendtes en modificeret udgave af NART. Hart et al. (1986) fandt også reduceret NART-score hos Alzheimer patienter i forhold til en kontrolgruppe. I samme under-søgelse blev bl.a. WAIS vocabulary og NART sammenlignet som prædikatorer for præmorbid intelligens i en Alzheimergruppe (n=20) og selv om Alzheimergruppen var signifikant reducerede på NART, var denne test alligevel den bedste indikator for præmorbid intelligens af de to. Stebbins, Wilson et al. (1990) undersøgte NART-resultater fra tre grupper demente (ialt n=199): en meget let demensgruppe, en let demensgruppe og en moderat/svær demensgruppe over for en kontrolgrup-pe og fandt at NART-estimeret WAIS IQ (ud fra Nelsons regressionsligning, 1982) fra grupperne med let og moderat/svær demens var signifikant forskellige fra den meget lette demensgruppe og kontrolgruppen. De konkluderede, at resultaterne pegede i retning af, at NARTs værdi som prædikator for præmorbid intelligens for demente var begrænset undtagen for patienter med meget let demens og endvid-ere at NART på trods af ovenstående kunne bruges til beregning af den laveste grænse for præmorbid IQ. I en samtidig undersøgelse fandt Stebbins, Gilley et al. (1990), at Alzheimer patienter med sprogforstyrrelser (og patienter med multi-infarkt demens med sprogforstyrrelser) opnåede signifikant lavere NART-estimeret IQ end Alzheimer patienter uden sprogforstyrrelser. Patterson et al. (1994) testede 45 Alzheimer patienter med forskellige læsetests deriblandt NART og fandt, at NART resultater korrelerede højt (r=0,56) med demensgrad målt ved Mini-Mental State Examination (MMSE). Forfatterne satte spørgsmålstegn ved den udbredte brug af NART som mål for præmorbid intelligens, da deres resultater indikerede at NART underestimerede præmorbid intelligens allerede for gruppen med moderat demens med ca 15 IQ points. O'Carroll et al. (1995) fandt ligeledes en signifikant korrelation (r=0,46, p<0,01) mellem NART-score og demensgrad målt ved MMSE. Deres undersøgelse konkluderede, at NART-score er kompromitteret ved moderat Alzheimers sygdom. I en af de seneste undersøgelser (af longitudinelt design) af dette emne fandt Paque og Warrington (1995), at på trods af at NART-scoren for Alzheimer patienterne faldt igennem testperioden, så faldt resultaterne på de for-melle IQ tests hurtigere og alvorligere. Sandsynligvis skyldtes faldet i NART-score for Alzheimergruppen de patienter, som har en lavere verbal IQ end performance IQ, og Paque og Warrington konkluderede derfor, at NART generelt kan benyttes som mål for præmorbid intelligens for demente, når verbal IQ er højere end per-formance IQ. Paolo et al.s (1997) undersøgelse viste som flere af ovennævnte, at NART var sensitiv overfor demensgrad. Dog faldt NART-score ikke så hurtigt som WAIS-R IQ.



Ovenstående til tider modstridende fund afspejler, hvor svært det er at finde enslydende resultater ved degenerative tilstande. Det man kan konkludere ud fra litteraturen er, at NART kan benyttes til at vurdere præmorbid intelligens hos Alzheimer patienter med let demens. Det er da også i begyndelsesfasen af syg-dommen, at viden om det individuelle præmorbide niveau er mest påkrævet, da de senere faser sjældent lader nogen tvivl tilbage om sygdommens tilstedeværelse.



Depression



NARTs validitet som mål for præmorbid intelligens for depressive patienter blev testet ved at sammenligne en gruppe depressive patienter (n=39) med en kontrol-gruppe (Crawford, Besson, Parker et al., 1987). Der fandtes ingen signifikant for-skel mht. NART-score grupperne imellem. Austin et al. (1992) fik samme resultat. De fandt, at selv om depressive patienter opnåede signifikant dårligere resultater på genkaldelses- og genkendelsesopgaver og kompleks psykomotorisk hurtighed så var der ingen signifikant forskel i NART-score grupperne imellem.



O'Carroll et al. (1994) ønskede at teste om NART var brugbar ved det differential-diagnostiske problem demens versus depression. Ud fra undersøgelsen kon-kluderede de, at ingen af de simple neuropsykologiske diskrepansanalyser med NART kunne anbefales til brug i klinisk praksis til at skelne mellem demens og depression.



Gliomer



Ebmeier et al. (1993, ref. i O'Carroll, 1995) testede en gruppe langtidsoverlevende gliompatienter, som havde modtaget profylaktisk stråling af hele hjernen. 16 pa-tienter blev sammenlignet med en kontrolgruppe hvad angår NART-score. Patient-erne lavede signifikant flere NART-fejl end kontrolgruppen. Patienternes NART-fejl var højere end beregnet ud fra demografiske data. Forfatterne konkluderede, at NART undervurderede disse patienters præmorbide intelligens, og at NART skulle anvendes med forsigtighed til overlevende af ondartede hjernesvulster, særlig hvis strukturer i venstre temporallap var involveret.



HIV infektion



Egan et al. (1990) testede 80 HIV-smittede med NART og udvalgte WAIS-R del-tests. Gennemsnitlige NART-scores var ikke signifikant forskellige fra scores udregnet efter en regressionsmodel, hvilket indikerer, at NART er anvendelig som mål for præmorbid intelligens for denne gruppe.



Hjernerystelse



Hinton-Bayre et al. (1997) testede 10 rugbyspillere før og efter hjernerystelse (mel-lem 24 og 48 timer efter hjernerystelsen) og fandt ingen forskel i resultater på NART-R UK (Crawford, 1992). Resultater på tests på tid var derimod sensitive over for denne type skade.



Huntingtons sygdom



Crawford, Parker og Besson (1988) rapporterede om signifikant dårligere NART-resultater fra 8 patienter med Huntingtons sygdom sammenlignet med en kontrol-gruppe (p<0,05). Blackmore et al. (1994, refereret i O'Carroll, 1995) fandt ligeledes reduceret NART-score hos en større gruppe Huntington patienter. Forfatterne kon-kluderede, at demografiske data ville være at foretrække til vurdering af præmorbid intelligens hos denne type patienter.



Korsakoffs psykose og Korsakoffs syndrom



Crawford, Parker og Besson (1988) fandt, at en gruppe på 12 patienter med alko-holisk Korsakoffs psykose opnåede signifikant dårligere resultater på NART end en kontrolgruppe (p<0,05) og fraråder brugen af NART til vurdering af præmorbid intelligens for denne type patienter.



O'Carroll et al. (1992) undersøgte NARTs validitet som mål for præmorbid intelli-gens for patienter med alkoholisk Korsakoff syndrom og fandt, at NART-score var negativt påvirket af alkoholisk Korsakoff syndrom. Korsakoff-patienter (n=20) lav-ede flere NART-fejl end normale (n=40), de havde en lavere NART-estimeret IQ end IQ baseret på demografiske data, de lavede flere NART-fejl end estimeret på baggrund af demografiske data og deres NART-score korrelerede med graden af hukommelsessvækkelse. Forfatterne diskuterede om patienternes svækkede NART-score kunne skyldes at patienterne ikke kognitivt fejlcheckede deres svar, hvilket kunne repræsentere en følge af frontallapsdysfunktion. De fraråder brugen af NART til vurdering af præmorbid intelligens for patienter med Korsakoffs syn-drom.



Kortikal atrofi



Nelson og O'Connell (1978) var de første, der undersøgte NARTs validitet som mål for præmorbid intelligens. De sammenlignede NARTs standardiseringssample (n=120) med en gruppe patienter (n=40) med kortikal atrofi (ifølge EMI-skanning) og fandt, at de to grupper ikke havde signifikant forskellige resultater på testen. De to grupper var signifikant forskellige mht. WAIS FSIQ (p<0,001). Forfatterne kon-kluderede derfor, at læsningen af NART-ordene ikke blev signifikant påvirket af atrofipatienternes demensudvikling, og at NART derfor kunne benyttes til en præ-cis vurdering af præmorbid intelligens. Mikkelsen et al. (1988) undersøgte sam-menhængen mellem det at være udsat for organiske opløsningsmidler og indicier for hjerneskade i en gruppe malere. De fandt ingen signifikant association mellem CT-mål for størrelse af ventrikler og sulci og DART-score for denne gruppe.



Lukket kranietraume



Crawford, Parker og Besson (1988) rapporterede en ikke signifikant forskel i NART-score mellem en gruppe med lukket kranietraume (n=18) og disses kon-troller. Forfatterne konkluderede derfor, at NART var anvendelig som mål for præmorbid intelligens for denne gruppe. En case rapport fra Moss og Dowd (1991) støtter ovenstående. Deres patient fik et alvorligt lukket kranietraume. Der forelå en intelligenstest fra patientens barndom og resultaterne fra denne blev sammen-lignet med NART-estimeret IQ. NART leverede en meget præcis vurdering af præmorbid intelligens i dette tilfælde.



Multi-infarkt demens



Crawford, Parker og Besson (1988) rapporterede en ikke signifikant forskel i NART-score for 8 patienter med multi-infarkt demens og disses kontrolgruppe og konkluderede derfor, at NART var anvendelig som mål for præmorbid intelligens for denne gruppe.



Skizofreni



Crawford, Besson, Bremner et al. (1992) sammenlignede to skizofrene grupper med en normalgruppe mht. NART-score. Den ene gruppe bestod af 35 patienter i "long-stay" institutioner, den anden af 29 patienter med egen bopæl. Begge grup-per scorede signifikant lavere på WAIS end deres respektive kontrolgrupper. NART-estimeret IQ var ikke signifikant forskellig for skizofrene med egen bopæl og deres kontrolgruppe, hvilket indikerede, at NART var et gyldigt mål for præmorbid intelligens i en sådan population. NART-estimeret IQ var signifikant lavere for "long-stay" gruppen i forhold til kontrolgruppen (p<0,001), og forfatterne frarådede at anvende NART som mål for præmorbid intelligens for denne gruppe. O'Carroll et al. (1992) sammenlignede 20 ikke-medicinerede patienter med akut skizofreni, 10 ikke-medicinerede patienter med akut psykose og 20 normale mht. NART-score. Der fandtes signifikante forskelle grupperne imellem, men efter at have kontrolleret for demografiske forskelle, forsvandt disse forskelle. På baggrund af undersøgelsen konkluderede forfatterne, at NART var et acceptabelt mål for præmorbid intelligens for ikke-medicinerede patienter med akut skizofreni. Tracy et al. (1996) sammenlignede en NART-baseret (Blair og Spreens NART-R, 1989) og en demografisk baseret vurdering af præmorbid intelligens hos en gruppe skizo-frene (35 var kronisk skizofrene og 5 skizoaffektive). Alle modtog neuroleptika. De fandt statistisk enslydende resultater for demografisk baserede og NART baserede WAIS-R FSIQ og VIQ, men signifikant højere NART baseret PIQ. Korrelations-analyser afslørede, at de to vurderingskriterier var associerede, men at de kun delte en beskeden varians (ca 23% af total varians). Demografisk baseret IQ afslørede forventet association med uddannelse og social position (mindst p<0,05). NART IQ korrelerede signifikant (mindst p<0,05) med uddannelse og kognitiv status (Mini Mental Status Exam). Regressionsanalyser støttede associationen mellem NART-vurderinger og kognitiv reduktion. Forfatterne udledte af oven-stående, at en demografisk baseret vurdering ville være et bedre mål for præ-morbid intelligens i skizofreni, siden en sådan var mindre påvirket af mulige kon-sekvenser af sygdommen. Dette synspunkt deles ikke af O'Carroll (1995), der mener, at det for visse medfødte eller tidligt erhvervede udviklingsforstyrrelser deriblandt muligvis også skizofreni ikke giver mening at tale om præmorbid intel-ligens, fordi sygdommen har påvirket patienten tidligt i dennes opvækst.



Gennemgangen af ovenstående undersøgelser vedr. NARTs validitet som mål for præmorbid intelligens for forskellige typer og forskellige sværhedsgrader af hjerne-skade har med varierende tydelighed vist, hvornår NART er anvendelig/ikke an-vendelig. Det skal derudover nævnes, at Spreen og Strauss (1991) på baggrund af Stebbins, Gilley et al.s (1990) tidligere omtalte undersøgelse fraråder, at man an-vender NART til patienter med afasi eller dysleksi eller til patienter, som har artiku-latoriske problemer eller problemer med at se.



De ovenstående undersøgelser vedr. NARTs validitet som mål for præmorbid intelligens præsenteres i oversigtsform i tabel 1.





Tabel 1: Oversigt over NARTs validitet som mål for præmorbid intelligens for forskellige typer og forskellige sværhedsgrader af hjerneskade



Type hjerneskade Forfattere Design Resultater



AlKOHOLISK DEMENS

Crawford, Parker & Besson (1988) MS ok



AlZHEIMER DEMENS

Hart, Smith & Swash (1986) MS ikke ok

Cummings et al. (1986) KORR ok

O'Carroll & Gilleard (1986) KORR ok

O'Carroll, Baikie & Whittick (1987) LONG ok

Crawford, Parker & Besson (1988) MS ok

Stebbins et al. (1990a) MS

meget let demens ok

let og moderat/svær demens ikke ok

Stebbins et al. (1990) (med sprogforstyrrelser) MS ikke ok

Sharpe & O'Carroll (1991) MS ok

Fromm et al. (1991) LONG

tidlige stadier af Alz. ok

senere stadier af Alz. ikke ok

Patterson et al. (1994) KORR ikke ok

O'Carroll et al. (1995) (moderat Alz.) KORR ikke ok

Paque & Warrington (1995)(når VIQ er højere end PIQ) LONG ok

Paolo et al. (1997) MS ikke ok



DEPRESSION

Crawford, Besson, Parker et al. (1987) MS ok

Austin et al. (1992) MS ok

(O'Carroll et al. (1994)

vedr. diff.diagnosen depression/demens MS ikke ok)



GLIOMER

Ebmeier et al. (1993, ref. i O'Carroll, 1995) MS ikke ok



HIV

Egan et al. (1990) RM ok



HJERNERYSTELSE

Hinton-Bayre et al. (1997) LONG ok



HUNTINGTONS SYGDOM

Crawford, Parker & Besson (1988) MS ikke ok

Blackmore et al. (1994, ref. i O'Carroll, 1995) ? ikke ok



KORSAKOFFS PSYKOSE OG KORSAKOFFS SYNDROM

Crawford, Parker & Besson (1988) MS ikke ok

O'Carroll et al. (1992) MS ikke ok



KORTIKAL ATROFI

Nelson & O'Connell (1978) MS ok

Mikkelsen et al. (1988) KORR ok



LUKKET KRANIETRAUME

Crawford, Parker & Besson (1988) MS ok

Moss & Dowd (1991) CASE ok



MULTI INFARKT DEMENS

Crawford, Parker & Besson (1988) MS ok



SKIZOFRENI

Crawford Besson, Bremner et al. (1992) MS

"long-stay"- institutioner ikke ok

egen bopæl ok

O'Carroll et al. (1992) (ikke-medicinerede akut syge) MS ok

Tracy et al. (1996) (medicinerede kronisk skizofrene) KORR ikke ok



* MS=matched samples; KORR=korrelationsanalyse; LONG=longitudinel; RM=regressionsmodel.



II.c. Demografiske data



Man har længe vidst, at forskellige demografiske variable såsom uddannelse, socialklasse og alder korrelerer højt med IQ (Mortensen og Gade, 1993). Viden om en patients uddannelse, erhverv, alder mm. kan således danne baggrund for klinikerens (overordnede) skøn over patientens præmorbide intelligens. Wilson et al. (1978) forsøgte at videnskabeliggøre dette subjektive skøn ved at kvantificere demografiske variable og lave regressionsligninger som indeholdt information om alder, køn, race, uddannelse og erhverv (fra Wechslers standardiseringssample, n=1700). Disse ligninger forudsagde hhv. 54%, 53% og 42% af variansen i WAIS FSIQ, VIQ og PIQ.



Der er siden lavet lignende undersøgelser (Barona et al.,1984, Crawford, Stewart, Cochrane et al., 1989), hvor regressionsligninger baseret på demografiske variable har forudsagt op til 50% af variansen i WAIS. Denne regressionsbaserede metode til vurdering af præmorbid intelligens er at foretrække fremfor klinikerens subjektive skøn (Dawes et al., 1989), men den forklarer dog kun ca 50% af variansen i WAIS IQ. Fordelen ved metoden er, at den er uafhængig af hjerneskade. Paolo et al. (1997) sammenlignede NART og Barona et al.s (1984) regressionsligninger til vurdering af præmorbid intelligens for Alzheimer patienter og fandt, at sidstnævnte demografiske metode var NART overlegen. For visse medfødte eller tidligt er-hvervede udviklingsforstyrrelser og muligvis også skizofreni (O'Carroll, 1995) vil den demografiske metode dog ikke være anvendelig. Hvis en sygdom påvirker en person tilstrækkeligt tidligt i livet, vil det ikke længere være meningsfuldt at tale om præmorbid intelligens.



Crawford, Stewart, Parker, Besson og Cochrane (1989) sammenlignede WAIS IQ varians forudsagt på baggrund af hhv. NART og demografiske variable fra en normalgruppe på 151 personer og fandt at NART var overlegen, hvad angik WAIS FSIQ og VIQ, se tabel 2, side 14. Der fandtes nogenlunde samme resultat for PIQ for de to metoder. Raguet et al. (1996) undersøgte forskellige metoder til vurdering af præmorbid intelligens i en gruppe normale ældre personer (n=51) deriblandt NART-R (Blair og Spreen, 1989) og Barona et al.s (1986) (ref. i Raguet et al., 1996) regressionsligninger baseret på demografiske variable. De fandt korrela-tioner mellem opnået WAIS-R FSIQ og Barona på 0,61 og NART på 0,73. Steb-bins, Gilley et al. (1990) undersøgte, hvordan sprogforstyrrelser påvirker vurde-ringen af præmorbid intelligens hos en gruppe patienter med let demens (n=68). De fandt signifikant lavere NART estimeret IQ for patienter med sprogforstyrrelser. Samme effekt sås ikke for demografisk estimeret IQ (baseret på Wilson et al.s regressionsligninger fra 1979).



Når man tager den ikke imponerende forudsagte procentvise varians (ca 50%) i betragtning er den demografiske metode kun anbefalelsesværdig, der hvor NART ikke er anvendelig (bl.a. for patienter med sprogforstyrrelser). Se endvidere tabel 1, side 12 der viser en oversigt over tilstande, hvor NART er anvendelig/ikke anvendelig.



II.d. En kombination af NART og demografiske data



NART-score og demografiske variable korrelerer begge med IQ. Crawford, Stewart, Parker, Besson og Cochrane (1989) ville undersøge om en kombination af de to ville forudsige mere varians i WAIS IQ end en af metoderne alene i en normalgruppe. Det viste sig at være tilfældet. Se tabel 2. De demografiske variable i denne undersøgelse var alder, køn, uddannelse og erhverv.



Tabel 2: Procentdel af WAIS IQ varians forudsagt ved 3 metoder (n=151)



varians i % varians i % varians i %

FSIQ VIQ PIQ

_____________________________________________________________

NART 66 72 33

Demografiske data 50 50 30

kombination af NART og DEM. 73 78 39



Fra Crawford, Stewart, Parker, Besson og Cochrane (1989).



Kombinationen af NART og demografiske variable gav en stigning for FSIQ, VIQ og PIQ på hhv. 7%, 6% og 6% i forhold til NART alene. Crawford, Nelson, Black-more et al. (1990) bekræftede i en krydsvalideringssample, at kombinationen af NART og demografiske variable resulterede i en stigning i forudsagt WAIS IQ varians i forhold til NART alene. Crawford, Cochrane, Besson et al. (1990) viste, at denne kombinerede metode havde høj begrebsvaliditet. De faktoranalyserede vurderingen baseret på NART og demografiske variable sammen med de 11 deltests fra WAIS og fandt, at den kombinerede metode vejede tungt (ladning=0,9) på "g", dvs. den første ikke-roterede principale komponent, hvilket var højere end nogen af WAIS deltestene. På denne baggrund anbefalede forfatterne, at den kombinerede metode burde anvendes som mål for præmorbid intelligens fremfor NART alene. Willshire et al. (1991) fandt, at kombinationen af demografiske vari-able og NART gav en væsentlig bedre vurdering af præmorbid intelligens end en af metoderne alene. Grober og Sliwinski (1991) rapporterede om en meget lille stigning i forudsagt WAIS-R VIQ varians, når uddannelse kombineredes med AMNART. Blair og Spreen (1989) fandt ingen signifikant stigning i forudsagt WAIS-R IQ, når de inkluderede demografiske variable i deres NART-R-baserede regres-sionsligninger og konkluderede, at demografiske variable ikke var vægtige præ-dikatorer for IQ i deres sample.



Nielsen et al. (1995) fandt, at alder var en vægtig prædikator af resultater i syv ud af otte neuropsykologiske tests givet til en tilfældig gruppe danskere i alderen 64-83 år (n=130), og at deres modificerede udgave af DART signifikant forbedrede forudsigelserne af resultaterne for alle otte tests. Det var dog kun tale om at forud-sige op til 46% af variansen med den kombinerede metode i bedste tilfælde (Boston Naming Test), hvilket stadig lader over halvdelen af variansen uforklaret.



Forskelligheden i ovenstående resultater kan bl.a. afspejle, at undersøgelserne stammer fra forskellige lande. Crawford og medarbejderes resultater fra UK og Willshire og medarbejderes resultater fra Australien indikerer, at den kombinerede metode er bedre end en af metoderne alene i de respektive lande. Grober og Sliwinskis resultater fra USA og Blair og Spreens resultater fra Canada indikerer derimod, at man dér ikke får fordel af at kombinere de to metoder, men at man kan anvende NART alene. Det skal også bemærkes, at der kan være forskel på hvilke demografiske variable, de enkelte undersøgelser medtager, og at dette også kan være en kilde til forskellige resultater.



I flere tilfælde kan kombinationen af NART og demografiske variable til vurdering af præmorbid intelligens altså anbefales fremfor NART alene. Her skal man natur-ligvis også være opmærksom på, hvornår NART ikke er anvendelig (tabel 1).



Det skal bemærkes, at programmet SCORING (Mortensen og Gade, 1994) ved DART korrektion automatisk giver en korrektion for DART + demografiske variable.

Efter nu at have gennemgået undersøgelser vedr. de mest anvendte metoder indenfor vurdering af præmorbid intelligens og ud fra disse - hvor dette var muligt - angivet, hvornår hvilke metoder var at foretrække, indledes nu den empiriske del af specialet, hvor det gennem analyser af DART bl.a. skal afgøres, om det vil være en fordel at revidere DART.





III. Analyser af DART



Som nævnt i indledningen skal dette speciale bl.a. ses som et bidrag til belys-ningen af DARTs psykometriske egenskaber. Først foretages en itemanalyse af DART. Derefter undersøges DARTs interscorer reliabilitet. Udtalereglerne for de 50 ord vil ligeledes blive checket. Resultaterne fra disse analyser vil blive anvendt samlet til en forsøgsvis revision af DART (DART45). DART og DART45 vil blive sammenlignet. Denne sammenligning skal vise om DART bør revideres til DART45.



III.a. Første analyse - itemanalyse



III.a.1 Metode



Personer



Normalmaterialet stammer fra 141 normale, ikke hjerneskadede personer, som var udvalgt ifølge kriterier beskrevet af Gade et al. (1988). De 120 var patienter på ortopædkirurgisk afd. eller neurokirurgisk afd. (med perifere nervelæsioner) på Rigshospitalet i 80'erne og de 21 er ældre mennesker og stammer fra Østerbro-undersøgelsen (en prospektiv kardiovaskulær populationsundersøgelse af næsten 20.000 mænd og kvinder på 20 år og ældre). Uddannelsesniveau (educ1) blev ud-regnet som summen af skoleår (7-12) og et erhvervsindeks (1-5), hvilket giver min. 8 og max. 17. Gennemsnittet for hele gruppen er 11,5 (st.afv. = 2,6). Aldersmæs-sigt lå gruppen fra 20 til 83 år med et gennemsnit på 49,13 år (st.afv. = 15,7).



Materiale



De 141 personer blev testet med bl.a. Rigshospitalets Basisbatteri, som består af ordsprogsprøve, klassifikationstest, 15 ordpar, talspændvidde, sætningsgengivelse, symbol-tal (SDMT), trail making A & B, blokmønsterprøve og visuelle gestalter. Der genereredes to scores fra talspændvidde og Trail Making A & B og Basisbatteriets totale gennemsnit udregnedes således fra 11 scores. Dansk verbal IQ (DVIQ) dækker over resultater fra følgende WAIS delprøver: information, ligheder, tal-spændvidde og ordforråd. DART blev ligeledes administreret, se bilag 1.



Itemanalyse som statistisk metode (Anastasi, 1988, Teasdale, 1992)



En tests reliabilitet og validitet afhænger i sidste instans af de enkelte items karak-teristika. Høj reliabilitet og validitet kan bygges ind i en test fra starten gennem itemanalyse. Men tests kan også forbedres ved at udvælge, udskifte eller slette items. Itemanalyse gør det muligt at forkorte en test og på samme tid forbedre testens reliabilitet og validitet. Alt andet lige er en længere test mere valid og reliabel end en kortere. Men hvis en test forkortes ved at slette de mindst tilfreds-stillende items, kan den korte test blive mere valid og reliabel end den oprindelige, længere test.



Kvantitativ analyse af items i en test indbefatter først og fremmest at måle de en-kelte items sværhedsgrad og diskriminationsevne. Sværhedsgrad forstås som den andel af normalbefolkningen, som kan svare korrekt på spørgsmålet. På grund af item-interkorrelationer er det bedst at vælge items med en moderat spredning i sværhedsgrad, men hvis gennemsnitlige sværhedsgrad er 0,5. Højere item-inter-korrelationer (eller korrelationer mellem items og total score, "item-total korrela-tioner) hænger sammen med større spredning i item-sværhedsgrad. Et items dis-kriminationsevne henviser til om det kan differentiere korrekt mellem testtagere i den adfærd, testen er designet til at måle. Et items diskriminationsevne kan under-søges både overfor et eksternt kriterium (ekstern validering) og overfor testens totale score (intern konsistens). Hvis man udvælger items på basis af et eksternt kriterium vil det resultere i en forhøjet validitet overfor dette kriterium. Vælger man items på basis af disses korrelationer med testens totale score, vil man forhøje testens interne konsistens eller homogenitet. En test kan således gøres mere homogen ved at slette de items, der har lave korrelationer med total score. På den måde vil de items, der har de højeste gennemsnitlige interkorrelationer, blive tilbage. Denne metode vil kun resultere i øget validitet, hvis den oprindelige sam-ling items måler et enkelt træk og hvis dette træk er tilstede i kriteriet.



I itemanalysen af DART anvendes denne sidstnævnte metode, der måler testens interne konsistens. Intern konsistens refererer til sammenhængen mellem samtlige elementer eller opgaver i en test. En måde at beregne en tests reliabilitet på be-står i at undersøge korrelationerne mellem samtlige af testens enkelte elementer indbyrdes. Jo højere korrelationer, jo bedre er reliabilitetsmålet ud fra intern kon-sistens. Cronbachs Alpha er den hyppigst anvendte statistiske metode til at ud-trykke reliabilitet på basis af intern konsistens. Cronbachs Alpha kan forstås som en form for sammenlægning eller kumulation af de reliabilitetsmål, de enkelte op-gaver taget parvist ville give. Den er sædvanligvis højere end nogen af de enkelte korrelationer, der indgår i den. Cronbachs Alpha stiger med gennemsnitskorre-lationerne og med antallet af elementer i testen (jo flere items i en test, jo højere reliabilitet, alt andet lige). Slettes items med lave item-total korrelationer kan Cron-bachs Alpha også stige. Formlen for Cronbachs Alpha er (Kaplan og Saccuzzo, 1997):



r = Cronbachs Alpha = N S2-summen af S2i

N-1 S2



r = reliabilitetsvurdering

N = antallet af items i testen

S2 = den totale testscores varians

S2i = de individuelle items varians



I den efterfølgende itemanalyse af DART vil de enkelte items korrelationer med total score blive undersøgt. Senere vil disse sammen med undersøgelsen af inter-scorer reliabilitet blive anvendt til at afgøre hvilke ord, der skal slettes fra DART. DARTs og DART45s Cronbachs Alpha vil også blive sammenlignet.



III.a.2 Resultater



I revisionssammenhæng er det mest interessant at se på de ord, der har lavest item-total korrelation. Derfor er det disse, der er fremstillet i tabel 3. Den fulde reli-abilitetsanalyse af DART ses i bilag 2 (uden item-interkorrelationer).



Tabel 3: Reliabilitetsanalyse af DART- (Alpha) - Item-total statistik. Her fremstilles de 10 ord, der har lavest item-total korrelation



Korrigeret item- Alpha, hvis Rangordning for

DART ord total korrelation item slettes de dårligste 10 ord



40. KLEMHÆRKE 0,0677 0,9299 1

20. CELLIST 0,1584 0,9294 2

05. MONTAGE 0,1797 0,9285 3

22. TONSUR 0,1950 0,9288 4

35. PISTACIE 0,2039 0,9289 5

25. KØRNER 0,2119 0,9284 6

31. KAPUCINER 0,2178 0,9289 7

12. GALIMATIAS 0,2609 0,9284 8

02. GIN 0,2905 0,9279 9

32. NEUTRUM 0,3186 0,9280 10



For hele testen er Cronbachs Alpha = 0,9283 .



Specielt for de i tabel 3 listede resultater er at "Alpha, hvis item slettes" for de 8 første ord er højere end Cronbachs Alpha for hele testen. Hvis nogle af disse ord slettes, er det derfor sandsynligt, at Cronbachs Alpha stiger. Men før det kan af-gøres, hvilke ord, der skal slettes, må resultaterne fra interscorer undersøgelsen fremstilles.



III.b. Anden analyse - af interscorer reliabilitet



III.b.1 Metode



Materiale



Et bånd med DART-resultater fra 30 personer, hvoraf 15 er demente og 15 nor-male (Begge grupper stammer fra en undersøgelse lavet af Waldemar et al. i 1994). Der var altså 50 x 30 = 1500 udtalte ord, der skulle scores.



Personer



De 8 scorere er erfarne neuropsykologer, der anvender DART i deres arbejde. Scorerne blev anmodet om at score ordene korrekt eller ikke-korrekt udtalt ifølge "DART-manualen" med udtaleguide og endvidere at gøre dette uafhængigt af hinanden.



Kappa statistik (Howell, 1997)



Kappa er et mål for enighed. Kappa måler enighed blandt scorere og anvendes ofte, når man ønsker at undersøge scoringers reliabilitet. For at beregne Kappa skal man udregne de forventede hyppigheder for hver af de diagonale celler i en fordelingstabel. Her forudsættes at scoringerne er uafhængige. Kappa er summen af observerede hyppigheder på diagonalen (summen af oh) fratrukket summen af forventede hyppigheder på diagonalen (summen af fh) divideret med antallet af scoringer (N) fratrukket summen af forventede hyppigheder på diagonalen (sum-men af fh). Dette gælder, når der er tale om to scorere.



Kappa= (summen af oh)-(summen af fh)

N-(summen af fh)



Kappa er således et mål for enighed korrigeret for tilfældigheder, forstået på den måde at den tager højde for, at scorere kan opnå samme scoring alene ved en tilfældighed.



I analyserne af scorermaterialet udregnes ialt 1400 Kappaer (undtaget 62, der ikke kunne udregnes pga. manglende varians i scoringerne). For hvert ord tværs over forsøgspersoner udregnes 28 Kappaer (enkelte undtaget). De 28 Kappaer for hvert ord er beregnet ud fra alle mulige kombinationer af de 8 scorere (8x8=64-8=56:2=28). Kappa for hvert enkelt ord er gennemsnittet af de 28 Kappaer. DARTs Kappa er gennemsnittet af de 1400-62=1338 Kappaer.



III.b.2 Resultater



I revisionssammenhæng er det mest relevant at se på de ord, der har lavest gen-nemsnitlig Kappa. Nedenfor fremstilles derfor de 10 ord, der har de laveste Kap-paer. I bilag 3 ses Kappaer for samtlige ord samt for testen som helhed.



Tabel 4: Interscorer reliabilitetsundersøgelse. Her fremstilles de 10 ord, der har lavest gennemsnitlig Kappa.



Rangordning for

DART ord Gennemsnitlig Kappa de dårligste 10 ord

20. CELLIST 0,262 1

07. GRATIN 0,411 2

40. KLEMHÆRKE 0,415 3

25. KØRNER 0,443 4

34. OBSKØN 0,454 5

38. LORGNET 0,505 6

39. KONSEIL 0,552 7

22. TONSUR 0,570 8

13. POMERANS 0,583 9

29. GUILLOTINE 0,612 10

På bilag 3 ses, at ord nr 1 "gage" ikke er analyseret. Kappa har ikke kunnet ud-regnes pga. nul varians. Alle scorere har scoret ordet som værende udtalt korrekt for alle forsøgspersoner ("gage" = 1 i gennemsnit, bilag 4). Derfor er dette ord uproblematisk i denne sammenhæng.



For ord nr 5 "montage" (bilag 3) gælder det, at ikke alle, men mindst en af scorer-ne har scoret ordet korrekt eller forkert for alle forsøgspersoner. "Gennemsnitlig" Kappa er kun baseret på een Kappa, hvilket gør at resultatet ikke kan tillægges samme betydning som de resterende Kappaer. Af bilag 4, der viser gennemsnit og standardafvigelser for de 8 scorere, ses, at ordet "montage" har 0,98 i gennemsnit og 0,0457 i standardafvigelse. Den lave standardafvigelse er udtryk for en lille varians og ordet er derfor også uproblematisk i denne sammenhæng, forstået på den måde, at der faktisk er stor enighed blandt scorerne om scoringen af ordet. Af ovenstående grunde figurerer "montage" ikke under rangordningen af de 10 dårligste ord.



Ord nr 20 "cellist" er også scoret korrekt eller forkert for alle forsøgspersoner af en af scorerne. Derfor er gennemsnittet baseret på 21 Kappaer istedet for 28. Gen-nemsnit og standardafvigelse for de 8 scorere viser, at "cellist" har 0,7550 i gen-nemsnit og 0,1983 i standardafvigelse, hvilket er den trediehøjeste af alle 50 ord (bilag 4). Dette indikerer uenighed blandt scorerne. Der er derfor god grund til at godtage gennemsnitlig Kappa for dette ord, selv om den kun er baseret på 21 Kappaer.



III.c. Tredie analyse - udtaleregler (Politikens Store Fremmed Ordbog, 1996)



Alle 50 ord i DART er blevet checket mht. udtale først og fremmest i Politikens Store Fremmed Ordbog (1996), se bilag 6 for en oversigt over DART45. Eet ord "obskur" fremstår med væsentligt ændrede udtaleregler. På et tidspunkt mellem tilblivelsen af DART og nu er reglerne for udtale af "obskur" ændret. Ifølge Gylden-dals Ordbog for Skole og Hjem (1979) skulle "obskur" udtales: [ b'sky,r]. Ifølge Politikens Store Fremmed Ordbog (1996) kan "obskur" udtales: både [ b'sgu,r] eller [ b'sgy,r]. Det betyder, at fra at have det laveste gennemsnit ud fra normalmate-rialet (0,1489, se bilag 5) og dermed være det sværeste ord, ville ordet herefter sandsynligvis blive et af de nemmeste. At beholde "obskur" i DART ville således være ligesom at sætte et helt nyt ord ind i testen. Derfor bør det udgå.



III.d. Kombineret resultat



Resultaterne fra tabel 3 og 4 sammenflettes i tabel 5, således at det er muligt at danne et overblik over de dårligste DART ord ud fra itemanalysen og den gennem-snitlige Kappa.



Tabel 5: De dårligste 10 ord ifølge hhv. itemanalyse og gennemsnitlig Kappa.



De 10 dårligste DART ord



ifølge itemanalyse (normalm.) Gennemsnitlig Kappa



KLEMHÆRKE CELLIST

CELLIST GRATIN

MONTAGE KLEMHÆRKE

TONSUR KØRNER

PISTACIE OBSKØN

KØRNER LORGNET

KAPUCINER KONSEIL

GALIMATIAS TONSUR

GIN POMERANS

NEUTRUM GUILLOTINE



Alle ord, der figurerer under begge metoder, slettes. 4 ord findes under begge me-toder: "klemhærke", "cellist", "tonsur", og "kørner" og disse udgår. Det sidste ord, der udgår fra DART, er "obskur" pga. ændrede udtaleregler.



5 ord der slettes fra DART:



KLEMHÆRKE

CELLIST

TONSUR

KØRNER

OBSKUR



Den reviderede DART45 ses i bilag 7 ordnet efter sværhedsgrad.





IV. DART/DART45 sammenlignet mht. psykometriske testdata/Revision eller ikke



Det er nu muligt at foretage en sammenligning af DART og DART45. Først ses på testenes reliabilitet. Her vil blive sammenlignet split-half reliabilitet, Cronbachs Alpha, interscorer reliabilitet (Kappa), korrelationer mellem scorere vedr. forsøgs-personernes totale sum og scorernes mildhed/strenghed. Dernæst sammenlignes testenes validitet. Dels ved korrelationer med andre variable, dels ved en "Principal Component Analysis". Til sidst gives en anbefaling om hvorvidt DART45 bør an-vendes fremfor DART.



IV.a. DART/DART45s reliabilitet



DART (bilag 1) deles i 2 dele med 25 ord i hver, således at nr 1, 3, 5 osv kommer i den ene del og nr. 2, 4, 6 osv. i den anden del. DART45 (bilag 7) deles på sam-me måde. Her er der dog 23 ord i del 1 og 22 ord i del 2. I tabel 6 listes resul-taterne under split-half. Cronbachs Alpha som refererer til testenes interne kon-sistens listes herunder. Interscorer reliabilitet belyses både ved testenes samlede Kappa og korrelationer (28) mellem scorere vedr. forsøgspersonernes totale sum. Her vises den mindste og den højeste korrelation for begge tests. Endvidere be-lyses scorernes hhv. mildhed/strenghed i scoringen, dels ved gennemsnitlig DART-score for hver scorer (her vises den højeste og laveste score) og dels ved forskel-len mellem den højeste gennemsnitlige DART-score og den laveste. Desuden testes scorernes resultater ved en variansanalyse.



Tabel 6: DART/DART45 sammenlignet mht. reliabilitet



DART DART45

Split-half

Korrelation ml. del 1 og 2 0,8656 0,8959



Intern konsistens

Cronbachs Alpha 0,9283 0,9312



Interscorer reliabilitet*

Kappa 0,7183 0,7475

Korrelationer ml. scorere** 0,956-0,987*** 0,961-0,990***

Scoreres mildhed/strenghed

Scorernes gennemsnitlige DART-score 28,267-33,467 26,167-29,900

Forskel ml. højeste/laveste DART-score 5,2 3,733

Variansanalyse p<0,001**** p<0,001****



*Scorerne vil blive underrettet om egen placering vedr. enighed (Kappa) og mildhed/strenghed (bilag 8 og 9)

**Vedr. forsøgspersonernes totale sum. Ialt 28 korrelationer.

***Alle signifikante på 0,01 niveau (tohalet test).

****For begge tests er der en signifikant forskel mellem scorernes resultater.



På trods af at DART45 er blevet kortere (alt andet lige ville det resultere i en mind-re reliabel test) ses, at alle reliabilitetstal er højere for DART45 end for DART. Der er ganske vist tale om en meget lille forskel, men den taler på alle punkter til fordel for DART45. På trods af at variansanalysen af scorernes resultater viser en signi-fikant forskel scorerne imellem for begge tests, viser forskellen mellem den højeste og laveste gennemsnitlige DART-score for hver scorer, at denne er reduceret med 1,467 for DART45 over for DART. Samme tendens illustreres ved DART45s højere Kappa og korrelationerne ml. scorerne, som også ligger lidt højere for DART45.



Sammenligner man DART45s reliabilitet med NARTs reliabilitet (se II.b.1) kan man se, at DART45, hvad angår split-half, interscorer reliabilitet og intern konsistens (Cronbachs Alpha) opnår stort set samme resultater som NART. Henry Nielsen et al.s (1995) Cronbachs Alpha for deres forkortede DART er ligeledes næsten ens-lydende med DART45s Cronbachs Alpha.



IV.b. DART/DART45s validitet som mål for intelligens



I tabel 7 vises korrelationer mellem DART/DART45 og hhv. alder, uddannelses-niveau (educ1), WAIS ordforråd, Dansk Verbal IQ og gennemsnittet for Rigs-hospitalets Basisbatteri (se III.a.1 for nærmere informationer vedr. de forskellige variable). Den fulde korrelationstabel ses på bilag 10.



Tabel 7: DART/DART45 korrelationer med forskellige variable til belysning af testenes validitet (Pearson)



DART DART45



Alder 0,180* 0,189*

Uddannelsesniveau (educ1) 0,679** 0,677**

WAIS ordforråd 0,808** 0,811**

Dansk Verbal IQ 0,835** 0,833**

Rigshospitalets Basisbatteri (gns) 0,559** 0,547**



*Signifikant på 0,05 niveau (tohalet test)

**Signifikant på 0,01 niveau (tohalet test)



Korrelationerne for de to tests er stort set lige store, dog er DART45s korrelationer med uddannelsesniveau, Dansk Verbal IQ og Rigshospitalets Basisbatteri lidt mindre end DARTs med samme variable. Som forventet korrelerer begge tests højt med WAIS ordforråd og Dansk Verbal IQ. Ligeledes ligger korrelationerne med Uddannelsesniveau pænt højt. Korrelationerne med gennemsnittet for Rigs-hospitalets Basisbatteri ligger lavere og afspejler, at batteriet er sammensat af flere forskellige typer tests (ikke kun verbale) end eks. Dansk Verbal IQ. Begge tests er således gode til forudsigelse af verbal intelligens og bedre til det end til forud-sigelse af generel intelligens. Korrelationerne med alder er ikke høje, men dog signifikante på 0,05 niveau.



Af bilag 10 ses endvidere, at WAIS ordforråd korrelerer højt med Dansk Verbal IQ (0,851) og lidt højere end DART45 (0,833). Her skal skal man dog bemærke, at Dansk Verbal IQ består af WAIS-delprøverne: information, ligheder, talspændvidde og ordforråd. Derfor skyldes den meget høje korrelation mellem ordforråd og Dansk Verbal IQ til dels, at ordforråd indgår i sidstnævnte. Det er derfor rimeligt at antage, at DART45 "i virkeligheden" forklarer mere varians i Dansk Verbal IQ end WAIS ordforråd. Dette er som nævnt tidligere tilfældet med NART overfor WAIS vocabulary. NART forklarer mere varians i WAIS-score end WAIS vocabulary.



For så vidt man kan sammenligne DART45s korrelationer med dels Rigshos-pitalets Basisbatteri, dels Dansk Verbal IQ mv. med NARTs korrelationer (eller forklaret varians i %) med WAIS FSIQ, VIQ og PIQ, ses at DART45s korrelation med eks. Dansk Verbal IQ på 0,833 (forklaret varians=0,833x0,833=0,694=69%) ligger fint i forhold til NARTs korrelationer med WAIS VIQ eller forklaret varians i % af samme, se afsnit II.b.2.



For at undersøge DART og DART45s begrebsvaliditet, laves en "Principal Com-ponent Analysis" på DART, DART45, Dansk Verbal IQ, uddannelsesniveau (educ1), gennemsnittet for Rigshospitalets Basisbatteri og WAIS Ordforråd. Se tabel 8.



"Principal Component Analysis" (PCA) (Kline, 1994, Teasdale, 1992)



"Principal Component Analysis" er første led i een type faktoranalyse. En faktor-analyse består af et antal statistiske teknikker, hvis mål er at simplificere et kom-plekst sæt data. Faktoranalyse er designet til at simplificere korrelationstabeller, som med et stigende antal variable hurtigt bliver uoverskuelige. En faktor er en dimension eller et fortættet udsagn om sammenhængen mellem et sæt variabler. En faktor er et begreb, der operationelt defineres af dets faktorladninger. Faktor-ladninger er en variabels korrelationer med en faktor. Summen af kvadraterne af faktorladningerne fra hver faktor afspejler den del af variansen, der forklares af hver faktor. Denne totale mængde varians kaldes faktorens "eigenvalue". Jo større "eigenvalue", jo mere varians forklarer faktoren.



"Principal Component Analysis" producerer det samme antal nye sammensatte variable (komponenter) som antallet af oprindelige variable. Den første komponent repræsenterer den største variation, der kan udledes fra den fælles sammenhæng mellem samtlige variable. Den næste udleder den næststørste grad af sammen-hæng, der er uafhængig af den første osv. Den første komponent forklarer mere varians end de andre komponenter.



I nedenstående faktoranalyse anvendes kun den første komponent, hvis "eigen-value" er 4,53 (75,6%). Faktorladningerne fra ovennævnte variable ses nedenfor.



Tabel 8: "Principal Component Analysis"



Eigenvalue=4,53 (75,6%)



Faktorladning for første komponent

Dansk Verbal IQ 0,936

DART45 0,950

DART 0,952

Uddannelsesniveau 0,778

Rigshospitalets Basisb. gns. 0,726

WAIS ordforråd 0,859



Denne første komponent kunne have at gøre med verbal intelligens, siden de ver-bale tests har de højeste faktorladninger. Det ses at DART45 og DART vejer lige tungt og tungere end WAIS ordforråd.



IV.c. Revision eller ikke?



Ovenstående analyser viser først og fremmest, at DART er en god test. Høj relia-bilitet og høj validitet. De viser også, at den er godt "oversat", dvs. at den - for de tal som foreligger - ligger på linie med NART (og de forskellige udgaver af den). Derfor er der også grund til at mene, at de undersøgelser, der refereres under afsnit II.b.3 (NARTs validitet som mål for præmorbid intelligens), hvor tilsvarende med en enkelt undtagelse (vises senere) ikke findes for DART, også kan bruges som retningslinier for, hvornår DART/DART45 bør anvendes i Danmark.



Ser man på de analyser, der går på de enkelte ord, er der gode argumenter for at rydde op i testen. Nogle ord har lav item-total korrelation og bidrager måske ne-gativt til testens reliabilitet (Cronbachs Alpha) og nogle ord har lav Kappa og er så-ledes svære at score. 4 af de udgående ord figurerer under de 10 dårligste ord ifølge begge analyser. 1 ord har skiftet udtaleregler og er derfor gået fra at være et af de sværeste til et af de nemmeste. Reliabilitetstallene listet i tabel 6 viser også forbedrede tal for DART45 i forhold til DART, omend disse illustrerer ganske små forskelle. Validitetstallene i tabel 7 (og 8) giver ingen grund til at lade være med at revidere testen. En kortere test, som er lige så god - eller lidt bedre - end en læng-ere test, vil være at foretrække alene af tidsmæssige årsager, både for testerens og den testedes skyld. I dette tilfælde vil en forkortet revideret test heller ikke be-tyde manglende normer, da disse uden problemer kan genereres ud fra normal-materialet. Dette er en af problemerne med Nielsen et al.s (1995) modificerede DART, som også består af 45 ord, med høj Cronbachs Alpha. Her er en del af ordene skiftet ud med andre, og derfor mangler testen da også normer (personlig kommunikation) og det er naturligvis en alvorlig mangel, indtil disse foreligger.



På baggrund af analyserne i dette speciale kan det anbefales at anvende DART45 fremfor DART.



V. Normer for DART45



Normer for DART45 vises opdelt i 3 aldersgrupper og på 2 uddannelsesniveauer og baseres på normalmaterialet (n=141). De 3 aldersgrupper er 1: 20-40 år. 2: 41-60 år. 3: 61+ år. Variablen "educ1" (uddannelsesniveau) som består af summen af skoleår (7-12) og et erhvervsindeks (1-5) dvs. at den går fra 8-17, opdeles i 2, så-ledes at første del går fra 8-12 og anden del fra 13-18. Første del benævnes "lav uddannelse", anden del "høj uddannelse". For de 3 aldersgrupper fordelt på høj og lav uddannelse vises gennemsnit for DART45, standardafvigelse, antal personer, antal personer i %. Se tabel 9.



Tabel 9: DART45 resultater (normalmaterialet, n=141) fordelt på 3 aldersgrupper og højt og lavt uddannelsesniveau



Alder i år

20-40 41-60 61+



Lav uddannelse Gns. 16,96 20,24 19,64

St.afv. 6 6 8

Antal 23 38 25

Antal i % 16,3% 27,0% 17,7%



Høj uddannelse Gns. 27,14 35,45 37,46

St.afv. 8 6 5

Antal 22 20 13

Antal i % 15,6% 14,2% 9,2%



Gennemsnittet for DART45 ligger på 24,42 i forhold til 27,08 for DART.



I tabel 10 vises DART45 resultater fra normalmaterialet i percentiler fordelt på samme 3 aldersgrupper og højt og lavt uddannelsesniveau.



Tabel 10: DART45 resultater (normalmaterialet, n=141) i percentiler fordelt på 3 aldersgrupper og højt og lavt uddannelsesniveau



Alder i år

20-40 41-60 61+

Lav uddannelse min. 2 9 5

percentil 05 3 12 5

percentil 25 13 15 14

percentil 50 18 19 19

percentil 75 21 26 27

percentil 95 29 31 36

max. 30 33 36



Høj uddannelse min. 10 17 28

percentil 05 11 17 28

percentil 25 21 31 34

percentil 50 30 38 39

percentil 75 34 41 42

percentil 95 38 42 .

max. 38 42 42



Værd at bemærke er, at gruppen af lavtuddannede i alderen 61+ opnår et lavere gennemsnit (tabel 9) end gruppen af lavtuddannede i alderen 41-60. Ellers ses kun bedre score, jo højere aldersklasse fordelt på høj og lav uddannelse. I tabel 10 ses udspecificeret, at det er de dårligste i denne gruppe af lavtuddannede i alderen 61+ (under 50 percentilen), der dykker i forhold til aldersgruppen 41-60 år. Efter 50 percentilen i denne gruppe gælder det som i alle andre grupper, at jo højere aldersgruppe, desto bedre DART-score. I gruppen af lavtuddannede profiterer man således ikke "automatisk" med alderen. Om dette resultat ses for andre undersøgelser eller om det er typisk for denne gruppe udelukkende, kan ikke afgøres her. Men det skal bemærkes, at man bør være opmærksom på alderen af normalmaterialer, da bl.a. skiftende livsbetingelser påvirker testscore (Mortensen og Gade, 1993). I bilag 11 vises endvidere, hvordan andre test-resultater fordeler sig på de tre aldersgrupper og høj og lav uddannelse. Det bemærkes, at Dansk Verbal IQ følger DART45, også hvad angår ovennævnte gruppe af lavtuddannede i alderen 61+. Den dykker også i forhold til alders-gruppen 41-60, hvad angår dem, der ligger under 50 percentilen. Rigshospitalets Basisbatteri (gns) falder generelt med alderen, hvilket også ses af den negative korrelation mellem alder og Rigshospitalets Basisbatteri (-0,53, p<0,01), bilag 10. Uddannelsesniveau ligger nogenlunde stabilt på de to grupper lavt- og højt-uddannede tværs over alder. Det falder kun ubetydeligt med alderen inden for de to grupper.



Der er ikke forskel mellem de to køn, hvad angår DART45-score. Mænd scorer i gennemsnit 24,28. Kvinder scorer i gennemsnit 24,59.



Afslutningsvist om normer for DART45 skal nævnes, at ovenstående blot skal give et indtryk af, hvordan DART45-score fordeler sig for forskellige aldre og uddannel-sesniveauer. Hvis testen skal anvendes i Danmark, bør den også indgå i eksem-pelvis programmet SCORING (Mortensen og Gade, 1994) i stedet for DART. Dette ligger imidlertid uden for rammerne for dette speciale.





VI. Sammenligning af DART45-resultater for 141 normale forsøgspersoner og 71 atrofiske patienter



VI.a. Metode



Personer



Normalgruppen består af 141 personer og er identisk med tidligere beskrevne normalmateriale, se side 15-16.



Atrofigruppen består af 71 patienter, som var henvist til neuropsykologisk under-søgelse. Forudgående CT-skanning viste for alle 71 patienter cerebral atrofi i varierende grad. En fjerdedel havde fået diagnosen toksisk encephalopati og resten var en gruppe med blandede neurologiske diagnoser. Gennemsnitligt ud-dannelsesniveau (målt ved educ1) var 11,4 (st.afv. = 2,6) og gennemsnitlig alder var 47,8 år (st.afv. = 9,9). Independent samples t-test viser ingen signifikante forskelle grupperne imellem, hvad angår uddannelsesniveau (p>0,4) og alder (p>0,8).



Materiale



Normalgruppen blev testet med de på side 16 nævnte prøver.



Atrofigruppen blev testet med S-81 batteriet (Gade, 1994). Heri indgår også DART.



VI.b. Resultater



Der foretages en variansanalyse med efterfølgende post-hoc test af DART45-resultater mellem normalgruppen og atrofigruppen med alder, uddannelsesniveau og køn som covariater. Covariansanalysen anvendes for at korrigere for de for-skelle grupperne imellem, der beror på forskelle i alder, uddannelsesniveau og køn. Resultatet på denne analyse viser ingen signifikant forskel i DART45-resul-tater for normalgruppen og atrofigruppen (p=0,124), hvilket indikerer, at DART45 er anvendelig for atrofipatienter. Se bilag 12. Der foretages endvidere en varians-analyse med efterfølgende post-hoc test af gennemsnittet af Rigshospitalets basis-batteri, Dansk Verbal IQ, WAIS ordforråd, information og ligheder mellem normal-gruppen og atrofigruppen ligeledes med alder, uddannelsesniveau og køn som covariater. Der ses signifikante forskelle grupperne imellem, hvad angår gennem-snittet af Rigshospitalets basisbatteri (p<0,001), Dansk Verbal IQ (p<0,001), WAIS information (p=0,001) og ligheder (p=0,017). Resultatet for WAIS ordforråd viser ingen signifikant forskel grupperne imellem (p=0,077), omend det ligger tæt på 0,05 signifikansniveauet.



Sammenlignes DART45 med WAIS ordforråd, ses at forskellen grupperne imellem er relativt mindre (målt ved p-værdien) for DART45, hvilket betyder at DART45 er at foretrække som mål for præmorbid intelligens for atrofigruppen.



Gennemsnitlig DART45-score for normalgruppen er 24,42 (st.afv. = 9,92) og for atrofigruppen 22,28 (st.afv. = 9,74).





VII. Nye metoder til vurdering af præmorbid intelligens



Der er udviklet to nye tests til vurdering af præmorbid intelligens. Den ene ny-udvikling på området er "Spot-The-Word" (Baddeley et al., 1993), hvor den testede skal udpege det rigtige af to ord, hvor det ene er et non-ord og det andet et rigtigt ord. På den måde undgås højtlæsning af ordene. Den anden er Cambridge Con-textual Reading Test (CCRT) (Beardsall og Huppert, 1994) og denne test er en videreudvikling af NART. Her sættes NART-ordene ind i en kontekst. Nielsen et al. (1997, ikke publiceret) har udviklet en tilsvarende dansk version med deres modi-ficerede DART, som kaldes Danish Contextual Reading Test (DCRT). Resultaterne på Cambridge Contextual Reading Test er interessante i spørgsmålet, om det ville være en god ide at lave en DART45 i kontekst.



Disse tests er bl.a. udviklet i erkendelse af, at NART/DART alligevel ikke var så anvendelig, som man i starten antog den for at være. Som for alle nye tests fore-ligger der kun få psykometriske testdata.



VII.a. Spot-the-Word (Baddeley et al., 1993)



Spot-the-Word er en test, der udvikledes som et supplement til NART. Den består af to parallelle former, som hver indeholder 60 par enheder, hver bestående af et ord og et opfundet non-ord. Opgaven er at udpege eller afkrydse det rigtige ord. Der er således ikke tale om højtlæsning.



Baddeley et al. (1993) understreger, at Spot-the-Word i modsætning til NART kan benyttes til patienter med dysleksi eller med visuelle eller artikulatoriske problemer. Spot-the-Word kan også være en mere brugbar test til selvlærte, som oftere har læst sig til deres viden og derfor ikke nødvendigvis kender ordenes korrekte ud-tale. En anden fordel fremfor NART er at Spot-the-Word ikke anvender ikke-lyd-rette ord, hvorfor den også er nemmere at oversætte til sprog med en større overensstemmelse mellem ortografi og udtale, dvs. til sprog med en mere lydret udtale.



På baggrund af ovenstående argumenter for en ny test udviklede Baddeley et al. Spot-the-Word, der er baseret på leksikal stillingtagen. Den leksikale stillingtagen kan baseres på et eller flere af ordets karakteristika, eks. dets betydning, dets ortografiske udseende, dets lyd eller dets velkendthed baseret på en blanding af de netop nævnte. Det, at man kan gennemføre opgaven ad et antal parallelle ruter, sandsynliggør, at testen er mere resistent over for hjerneskade end en test, der kun er baseret på et enkelt træk, mener forfatterne.



Baddeley et al. testede 50 medlemmer af "Applied Psychology Unit Subject Panel". I efterfølgende analyser fandt forfatterne, at Spot-the-Word korrelerede 0,69 med Mill Hill Vocabulary Test (MHVT) og 0,87 med NART. Baddeley et al. opdelte grup-pen i forskellige undergrupper baseret på score på Mill Hill Vocabulary Test og et mål for flydende intelligens (AH4) og fandt at undergruppen med høj MHVT og lav flydende intelligens (hvilket indikerer intellektuel reduktion) ikke viste reduktion i Spot-the-Word. Forfatterne konkluderede, at Spot-the-Word følger mål for krystal-liseret intelligens, hvilket indikerer, at testen er relativt upåvirket af aldersrelateret reduktion. Forfatterne understregede, at testen skal raffineres yderligere, eks. gen-nem itemanalyse og validering overfor WAIS-R. O'Carroll (1995) påpegede end-videre, at testen bør afprøves overfor forskellige grupper hjerneskadede.



VII.b. Cambridge Contextual Reading Test (CCRT) (Beardsall og Huppert, 1994)



Beardsall og Huppert fik ideen til Cambridge Contextual Reading Test i deres standardiseringsarbejde med en kort udgave af NART. Forfatterne blev over-raskede over, at mange af de lavtuddannede lavede fejl i udtalen af almindelige ord, som man formodede, at de kendte. Dette var endnu mere udbredt i gruppen af demente. På baggrund af disse iagttagelser, antog de, at fejludtalen af ordene skete på grund af ordenes manglende kontekst, og at den manglende kontekst kunne have en mere skadelig indflydelse på demente og lavtuddannede end på normale højtuddannede.



NART baseres som tidligere nævnt på teorien om, at der er to hovedlæseruter: Den semantiske og den fonologiske (afsnit II.b.). Beardsall og Huppert mener, at situationen er mere kompleks end to-rutemodellen viser. De fremdrager en teori om en tredie rute, hvor der er en direkte forbindelse mellem det trykte ord til lyd, hvor enheden er hele ord. Demente kan rent faktisk udtale ikke-lydrette ord korrekt selvom de ikke længere forstår ordets mening, og dette indikerer, at der er en lek-sikal-fonologisk rute, som er uafhængig af betydning. Derfor mener Beardsall og Huppert, at fejl i læsning af enkeltord ikke behøver at betyde enten, at den testede ikke har forudgående kendskab til ordet eller, at den testede anvender en ikke-leksikal metode til udtale af ordet (det er, hvad NART baseres på). Dette ville kun være tilfældet, hvis den skrevne form af et ord altid resulterer i, at man får adgang til det visuelle input leksikon, når man har en lagret repræsentation af ordet. Men ifølge forfatterne er det muligt under visse omstændigheder eller for visse individer, at de ikke genkender ordet på trods af, at ordet tidligere har været i deres leksi-kon. En måde at aktivere den semantiske rute ville være at bede den testede om at læse højt af sammenhængende tekst. For at undersøge om dette kunne være tilfældet, satte forfatterne NART-ordene ind i en semantisk og syntaktisk kontekst, dvs. i sætninger, som har semantiske og syntaktiske signaler om ordet, før det udtales. En fordel ved denne ændrede test, som sætter ordene i kontekst, er at den reducerer muligheden for, at de testede gætter på basis af fonemiske ele-menter i ordet. Ifølge Nelson og O'Connell (1978) er dette en af fejltyperne. Rent praktisk er det sandsynligvis mere acceptabelt for ældre at læse sætninger end at læse en liste af svære ord.



Testen blev konstrueret således, at sætningerne blev lavet, så den testede fik sig-nal om ordet, inden det skulle læses. Eksempelvis:



"The bride was given a beautiful bouquet by the courteous groom. They began to walk down the aisle when the organist played the first chord of the psalm." (Beardsall og Huppert, 1994).



Sætningerne blev holdt så korte og enkle som muligt, NART-ordenes sværheds-grad taget i betragtning, for på den måde at undgå at stille for store krav til de de-mentes nuværende kognitive kapacitet.



Beardsall og Huppert testede efterfølgende en gruppe normale (n=61) opdelt i dår-lige, gennemsnitlige og gode læsere og en gruppe demente (n=20) opdelt i mini-mal demens og let/moderat demens med både NART og CCRT. Det viste sig, at alle grupper opnåede signifikant forbedrede scores på CCRT i forhold til NART, men at det i særlig grad var de demente og de dårlige og gennemsnitlige læsere, der havde fordel af konteksten. De gode læsere viste kun en lille forbedring på CCRT i forhold til NART og forfatterne konkluderede, at NART var en valid indi-kator for IQ for denne gruppe.



Resultaterne fra denne undersøgelse rejser interessante teoretiske spørgsmål om de kognitive processer, der er involveret, når man læser ord i kontekst fremfor lister med enkeltord. Når de testede udtaler CCRT-ord korrekt, som de ikke kunne udtale korrekt i NART, konkluderer forfatterne, at ordene er i de testedes leksikon og stiller efterfølgende spørgsmålet: Hvorfor resulterer CCRT i et højere antal kor-rekt udtalte ikke-lydrette ord, særligt blandt dårlige og gennemsnitlige læsere? En mulighed er den velkendte effekt, at kontekst påvirker sandsynligheden for at gen-kende en stimulus. Forfatterne argumenterer, at ved at sætte ordene i en pas-sende kontekst, så vil de testede genkende ordene som "velkendte" og derved få adgang til leksikonet og den fonologiske repræsentation af det lagrede ord. Det er denne velkendthed, der er central i forskellen mellem den ene og den anden test. Jo mere velkendt en stimulus, des mindre påvirkes genkendelsen af den af mang-lende kontekst. Derfor betyder CCRT også mindre for gode læsere.



Hvad angår de dementes forbedrede score på CCRT, mener forfatterne, at der kan være tale om, at de kontekstuelle signaler kan have aktiveret den semantiske rute. (Selvom den semantiske rute til læsning sandsynligvis ikke er tilstede for mild/moderat demente, mens den for lettere former for demens kun er delvist be-skadiget.) De har dog også en anden fortolkning af dementes forbedrede score på CCRT og den bygger på svækkelse i hukommelse fremfor i semantisk proces-sering. Demente er som normale ældre reducerede på hukommelsestests, men i modsætning til normale ældre er de også reducerede på genkendelsestests, hvilket indikerer at deres vurdering af velkendthed er svækket. Mangelen på kon-tekst for ord skulle derfor være endnu mere skadelig for demente end for normale dårlige læsere og tilsætningen af kontekst til ord burde forbedre genkendelsen af ordene som "velkendte". Den deraf følgende adgang til leksikonet ville føre til kor-rekt udtale. Ifølge denne hypotese skulle demente profitere mere på kontekst end normale, men Beardsall og Hupperts resultater viser, de to grupper profiterer nogenlunde lige meget. Forfatterne er ikke i stand til at afgøre om kontekst gør det nemmere for demente at læse via den semantiske rute eller den ikke-semantiske leksikal-fonologiske rute. De overvejer om den leksikale rute er en upålidelig guide til fonologi, når der mangler semantisk information eller om sygdomsprocessen i demens resulterer i en svækkelse af associationen mellem leksikale og fono-logiske systemer. Men selvom de teoretiske fortolkninger af resultaterne er usikre, viser resultaterne at CCRT kunne give en mere præcis vurdering af præmorbid intelligens end NART og Beardsall og Huppert opfordrer sluttelig til at anvende CCRT til ældre dårlige læsere og til demente. De påpeger også, at CCRT skal valideres overfor andre mål for verbal intelligens, såsom WAIS, ligesom den skal prøves på yngre mennesker.



VII.c. DART45 i kontekst



Ovenstående resultater indikerer, at der også i Danmark kunne være behov for en sådan test. En sådan lettere test vil sandsynligvis kunne diskriminere bedre blandt de forsøgspersoner, der scorer lavt på DART45. Et argument for at en sådan dansk udgave af testen skal baseres på DART45 er, at det så vil være muligt at foretage direkte sammenligninger mellem resultater på DART45 og DART45 i kontekst. Hvor mange flere ord læses eksempelvis korrekt på kontekstudgaven, hvis nogen overhovedet?



Testen konstrueres efter principperne for konstruktionen af Cambridge Contextual Reading Test. Sætningerne er lavet, så der før eller i hvert fald i sætningen er et signal om det relevante ord. Sætningerne er holdt så korte og enkle som muligt, når man tager kravet om signal og DART45-ordenes sværhedsgrad i betragtning. I bilag 12 ses DART-45 i kontekst. Testen bør nok betragtes som et 1. udkast snarere end en færdig test.



Normerne for DART45 vil naturligvis ikke kunne anvendes på DART45 i kontekst.





VIII. Konklusion



Som nævnt i indledningen er det undersøgerens opgave at finde den bedste og mest meningsfulde vurdering af patientens præmorbide intellektuelle niveau til brug som sammenligningsstandard for den enkelte patient. Overordnet set skal dette speciale ses som et middel til at nå dette mål. Dette er forsøgt gjort på to måder. Dels ved en gennemgang af talrige undersøgelser af metoder til vurdering af præ-morbid intelligens og dels ved en forbedret udgave af den test, DART, som er mest anvendt til vurdering af præmorbid intelligens her i landet.



Der findes næppe en perfekt metode til vurdering af præmorbid intelligens, og det er naivt at tro, at der findes en test, som er helt resistent over for hjerneskade. Men det er vigtigt at afgøre, hvilken metode korrelerer højest med IQ i normal-befolkningen og hvilken metode er mest resistent overfor en række forskellige typer hjerneskade, således at man ved en bestemt type hjerneskade vil være i stand til at afgøre, hvilken metode det i det tilfælde vil være bedst at anvende. Derudover vil der også være visse medfødte eller tidligt erhvervede udviklings-forstyrrelser, hvor det ikke giver mening at tale om præmorbid intelligens, fordi sygdommen har været tilstede tidligt i patientens opvækst. Jo mere præcist diag-nosen kan stilles, desto mere præcist vil også den relevante metode til vurdering af præmorbid intelligens kunne vælges. Gennemgangen af forskellige metoder til vurdering af præmorbid intelligens, deriblandt især NART/DART, skulle på basis af talrige undersøgelser hjælpe testeren til at vælge den bedste metode til forskellige typer og forskellige sværhedsgrader af hjerneskade.



Konklusionen på ovennævnte gennemgang er for det første, at NART er en relia-bel test og et gyldigt redskab til forudsigelse af WAIS og WAIS-R FSIQ og verbal IQ og "g" (generel intelligens), men ikke performance IQ.



For det andet at NART, demografiske variable eller en kombination af de to ud-konkurrerer WAIS vocabulary mht. vurdering af præmorbid intelligens. Egne ana-lyser viser endvidere at DART/DART45 placerer sig bedre end WAIS ordforråd i faktoranalysen. DART45 er ligeledes et bedre mål for præmorbid intelligens for atrofigruppen jfr egne analyser end WAIS ordforråd, omend variansanalysen af WAIS ordforråd med efterfølgende post-hoc test med alder, uddannelsesniveau og køn som covariater mellem normalgruppen og atrofigruppen ikke viser nogen signi-fikant forskel grupperne imellem (p=0,077).



De i bilag 10 viste korrelationer viser, at WAIS ordforråd korrelerer højere med Dansk Verbal IQ (0,851) end DART og DART45 (hhv. 0,835 og 0,833). Men WAIS ordforråd indgår sammen med 3 andre tests i Dansk Verbal IQ, og det vil derfor være sandsynligt at antage, at DART/DART45 i virkeligheden forklarer mere varians i Dansk Verbal IQ end WAIS ordforråd. Det kan på denne baggrund ikke anbefales at anvende WAIS ordforråd til vurdering af præmorbid intelligens.



For det tredie kan det konkluderes, at NART med fordel kan anvendes til vurdering af præmorbid intelligens for en række tilstande: alkoholisk demens, depression, HIV, hjernerystelse, kortikal atrofi, lukket kranietraume, multi infarkt demens. Egne analyser bekræfter, at der ikke ses signifikant reduceret DART-score for patienter med kortikal atrofi. Ligeledes kan den anvendes ved let demens og "lettere" til-fælde af skizofreni, hvor patienten eksempelvis har egen bopæl, eller hvor der er tale om en ikke-medicineret akut syg. Hvad angår moderat til svær demens viser undersøgelser imidlertid, at NART-score er signifikant lavere for disse grupper end tilsvarende kontrolgrupper og det må derfor frarådes at anvende DART til vurde-ring af præmorbid intelligens for disse patienter. Stebbins, Wilson et al. (1990) foreslår dog, at NART - på trods af signifikant dårligere NART-score for let og moderat demente i forhold til meget let demente og normale - bruges til beregning af den laveste grænse for præmorbid intelligens. Undersøgelser peger endvidere i retning af, at NART ikke bør anvendes ved følgende tilstande: gliomer, Hunting-tons sygdom og Korsakoffs psykose og syndrom. Spreen og Strauss (1991) fra-råder på baggrund af Stebbins, Gilley et al.s (1990) undersøgelse, at man anvend-er NART til patienter med afasi eller dysleksi eller til patienter, som har artikulato-riske problemer eller problemer med at se.



For det fjerde kan det konkluderes, at NART forklarer en større del af variansen i WAIS FSIQ end den demografiske metode, hvad angår normale (Crawford, Stewart, Parker, Besson og Cochrane, 1989 og Raguet et al., 1996). Derfor kan den demografiske metode kun anbefales ved de tilstande, hvor NART ikke er anvendelig. O'Carroll (1995) fraråder dog at anvende den demografiske metode ved eksempelvis skizofreni, da sygdommen kan have påvirket patienten meget tidligt i livet.



Sluttelig vedr. metoder til vurdering af præmorbid intelligens skal det bemærkes, at der er forskellige resultater vedr. fordelen ved at anvende en kombination af NART og demografiske data. Nogle undersøgelser viser, at den kombinerede metode er at foretrække, andre viser ingen fordel ved at medtage den demografiske del. Pro-grammet SCORING (Mortensen og Gade, 1994) giver ved DART korrektion auto-matisk en korrektion for DART + demografiske variable. Det ville være interessant at undersøge, om dette forklarer en større del af variansen i Rigshospitalets basis-batteri. Hvis man anvender den kombinerede metode, skal man naturligvis også være opmærksom på, hvornår DART ikke er anvendelig, da det samme så ville gælde for kombinationen af DART og demografiske variable.



Ser man på analyserne af DART med henblik på revision af testen, taler disse i det væsentligste for sig selv, forstået på den måde at det vel er relevant at an-vende itemanalyse, analyse af interscorer reliabilitet (Kappa statistik) og gennem-gang af udtaleregler, når man ønsker at identificere de "dårligste" ord. På basis af de tre analyser af testen udvælges de 5 dårligste ord. Der udvælges kun 5, fordi testen ellers kan tabe i reliabilitet, hvis den bliver meget kortere.



DART og DART45 sammenlignes dels med hinanden, dels med resultaterne på NART. Sammenligningen de to tests imellem viser forbedrede reliabilitetstal for DART45. Validitetstallene for DART45 er en smule lavere end DARTs, men det er så lidt at det ikke giver grund til at undlade at revidere testen. Både reliabilitetstal og validitetstal (vedr. måling af IQ) tåler sammenligning med resultaterne fra undersøgelser af NART, hvilket bekræfter at DART/DART45 er en god test. Dette giver også grund til at mene, at de udenlandske undersøgelser, der refereres i afsnittet om NARTs validitet som mål for præmorbid intelligens, også kan an-vendes som retningslinier for, hvornår DART/DART45 kan anvendes i Danmark.

En kortere test, som er lige så god - eller lidt bedre - end en længere test, vil være at foretrække alene af tidsmæssige årsager, både for testerens og den testedes skyld. I dette tilfælde vil en forkortet revideret test heller ikke betyde manglende normer, da disse kan genereres ud fra normalmaterialet. I en ønskesituation ville disse normer være baseret på dugfriske testresultater. De stammer som tidligere nævnt fra 1980'erne, hvilket kan være et problem, da skiftende livsbetingelser påvirker testscore (Mortensen og Gade, 1993), hvilket man naturligvis skal være opmærksom på.



På baggrund af de foretagne analyser kan det anbefales at anvende DART45 fremfor DART. Hvis dette bliver en realitet, anbefales det at lade DART45 indgå i eksempelvis programmet SCORING (Mortensen og Gade, 1994) eller tilsvarende i stedet for DART. På grund af normalmaterialets alder anbefales det at medtage DART45 i kommende standardiseringsarbejder eller eventuelt at revidere resul-taterne på DART i løbende standardiseringsarbejder, hvilket er en reel mulighed, således at man kan basere vurderingerne af præmorbid intelligens på så tids-svarende normer som muligt.



Vender man blikket mod fremtiden inden for metoder til vurdering af præmorbid intelligens, er de to nye tests "Spot-The-Word" og Cambridge Contextual Reading Test mulige emner. De skal måske snarere opfattes som tests, der kan dække nicher i feltet, dvs. give testeren flere mulige tests at vælge imellem og dermed blive mere præcis, end egentlige afløsere til nuværende muligheder. Baddeley et al. (1993) påpeger, at "Spot-The-Word" i modsætning til NART kan benyttes til patienter med dysleksi eller med visuelle eller artikulatoriske problemer. Endvidere at den vil være mere brugbar til selvlærte, som måske har læst sig til deres viden og derfor ikke kender ordenes korrekte udtale. Beardsall og Huppert (1994) op-fordrer på baggrund af deres undersøgelser til at anvende Cambridge Contextual Reading Test til ældre dårlige læsere og til demente. Fælles for testene er, at der foreligger få psykometriske testdata. Disse er naturligvis nødvendige for at kunne vurdere testenes anvendelighed. DART45 i kontekst konstrueres, fordi Beardsall og Hupperts argumenter for en sådan test vurderes som vægtige og fordi de ikke kan afprøves uden at testen foreligger. DART45 i kontekst baseres på DART45, fordi man så vil kunne sammenligne resultaterne på de to tests umiddelbart. Disse vil eventuelt kunne bidrage til diskussionen om, hvilke læseruter forskellige typer læsere eller patienter anvender.



Dette speciale er forsøgt udformet, så det skulle være så anvendeligt som muligt for brugere af DART. Jeg håber, det er lykkedes, og at det rent faktisk vil blive anvendt.