Artikkel fra praksisfeltet 13s

Fra praksisfeltet: WISC ved Nesodden PPT

v/ Stein Schiøll

Ingress

Stein Schiøll var PP-leder på Nesodden ’68-’95. Han har tidlig erfaring fra testkontor og testundervisning i USA, og med utvalgstesting som arbeidspsykolog. I ’69-’72 utarbeidet han interesseprøver og normerte prøver i norsk, engelsk og matematikk for 7.kl. Reduksjon av variasjoner i sakkyndige vurderinger via selvtest var mål for hans innovative FOU-prosjekter ”Referansekasus” og ”Kasuskartotek” ’93-’96.

SAMMENDRAG

Artikkelen er et utdrag av lokal rapport april ’09. Alle WISC-resultater, enkeltvedtak og hovedvansker i ordinært arkiv ble registrert. Analysene viser sider ved WISC-normene generelt, skåre- og vedtakstendenser for vansketyper, og mulig prediktiv bruk vs. enkeltvedtak og skolekarakterer.

Forkortelser: WISC er nedenfor brukt om begge versjoner, ellers W-R og W-III.

En etterundersøkelse ved dette kontoret fant 15 testet med WISC-R (W-R) og 89 med WISC-III (W-III) i utvalg N=158 med enkeltvedtakstimer. I øvrige saker forelå 18 med W-R og 46 med W-III. Samlet 168 WISC-protokoller fantes i god stand, 168/1160= 14,5% av alle elevsaker utenom fjernarkiv. Stort sett ble det brukt 1 test pr. sak, mest frekvent etter W-R/W-III var Logos/Koas. Gjennomsnitt hovedsummer var i

nedre normalområde (W-R M ca 95, W-III M ca. 85). Delprøvenes gjennomsnitt viste variasjoner som kan tilskrives utvalgs- eller normerings-skjevheter.

Psykometrisk nytte av WISC er søkt belyst. Samsvar mellom WISC og enkeltvedtaks-timer var svært svakt i samlet materiale (r.-.07 - r.-18; inkludert assistent litt høyere). WISC fungerer i så fall generelt bare som klinisk referanse eller pliktdokumentasjon.

Registerte hoved-og tilleggsvansker ble gjennomgått for å identifisere saker der WISC kan ha forventet prediktiv relevans. I underutvalg hovedvanske lese-skrive/dysleksi oppnåddes mellom enkeltvedtaks-timer og W-III en R .85 (sign 0.18) ved optimal regresjonsvekting av delprøver. Tilsvarende var prediksjonen R.87 (sign. 0.02) for underutvalg div. fagvansker. R vil falle i nytt materiale, men i slike underutvalg kan W-R/W-III nyttes som støtteberegning, bl.a. for å redusere fagpersonvariasjoner.

W-R/W-III ble også plottet mot skolekarakterer til jul i 8.kl. for ”klassisk” validering.

Samsvar hovedsummer / hovedkarakter var i utvalg med enkeltvedtak på nivå r.55 for W-III, svakere for W-R. Det er i underkant av forventet, men kan delvis tilskrives snevert utvalg og lavt samsvar for tester tatt før 8.kl. Ideell vekting av delprøver ga R .84 vs hovedkarakter, for fagkarakter best i matematikk R .87.

Forf. argumenterer sterkt for at testbrukere som PPT har egenansvar og praktisk mulighet for å etablere supplerende normdata for WISC og tester i bruk. Mulig sammenføyning med data fra andre kontorer i en fellesbase er søkt avklart vs. Datatilsynet, men krever formalia ut over et enkeltkontors rekkevidde.

Tidsbruk på datafangst og rapport medfører i underkant av forskningskvalitet og har feilfaktorer. Signifikans, tekstanalyse og pedagogisk/klinisk bruk er ikke prioritert.

BAKGRUNN

Som pensjonist søkte jeg og fikk des. ’07 Forum-midler til å se på testbruk og testkvalitet i PPT. Det førte meg bl.a. til å lansere en registreringsmal for skårer på hyppigste tester i bruk. Innsamling av data tok lang tid v.’08, og stoppet opp med et svært beskjedent antall. Rapporten (Schiøll 2010) gir en generell bakgrunn for mange av de temaer som berøres i herværende artikkel.

Så ville skjebnen at jeg jan/april ’09 pga. store vakanser fikk et engasjement ved PPT Nesodden, der jeg var leder ’68-’95. Det ga unik mulighet til en ”prosjektrelatert” lokal undersøkelse. Ved siden av ordinær saksbehandling ga lederen meg mulighet til å se på testbruken der. Valget ble å registrere all utført WISC og en del relevante variabler, samt noe statistisk behandling.

UTVALGET

Nesodden er en liten kommune med ’09 ca. 17000 innbyggere og sterk vekst. Elevtall 1-10. kl var ’09 2308. Enkeltvedtak ligger på 5,3% (nasjonalt 6,3%, økende). PPT bruker registreringsprogrammet HK, der det v.’09 var logget inn 1160 elevsaker + systemsaker. Ikke-aktive saker beholdes i HK ca. 1 år før de overføres fjernarkiv.

PPTs oversikt for enkeltvedtaks-saker er ”spesped-listen”, der ansatte i PPT logger inn tilråding og vedtak i saker hvert år. Listen har sikrest tall ved skoleårets slutt, mitt uttak herfra jan ’09 har derfor div. feilfaktorer.

Alder og enkeltvedtak.

Det erkjennes lokalt og generelt at det er ønskelig å sette inn tiltak tidlig. % antall enkeltvedtakssaker med eldre elever var noe høyere enn slik erkjent intensjon.

Gjennomsnittlig enkeltvedtaks-timetall var relativt jevnt for årskullene, svakt stigende for yngre elever. Pga. lavt antall yngre elever i listen slår tilfeller med store behov mye ut i gjennomsnittet. Eldre elever har større undervisnings-timetall der behov for spes.ped. kan være til stede. Nedtrapping ønskes vurdert for disse og for elever som har fått mange timer i en årrekke.

Materialet

Data for førskolesektoren og for elever med spesielt store behov ble utelatt. Antall saker i listen var 158, dvs. 158/2308= 6,85% av elevtallet 1-10.

Tester brukes mest som ledd i sakkyndig vurdering av behov for spesialundervisning. I de 158 enkeltvedtaks-sakene var 15 testet med W-R, 89 med W-III, sum 104 W-R/W-III utført, dvs. 65,8% av saker i listen (78,8% av de med listet vedtak).

55 av de 158 i listen har ikke WISC utført ved kontoret. Av disse 55 er ca 15 testet med Koas/Logos.

Et fåtall med W-III har W-R i tillegg. Andre tester og observasjons-skjemaer brukes lite. Det forelå eksterne WISC-data fra 2.-linje i 12 andre saker, de er ikke innhentet. I samlet journalarkiv finnes ca. 180 Koas-protokoller med analysepotensiale.

Saker i PPT uten enkeltvedtak med W-R/W-III basert på gjennomgåelse av alle 1160 elevjournaler utenom fjernarkivet, ga 18 med W-R og 46 med W-III, ialt 64.

Fig 1: %fordelingen for W-III IQ i utvalg med og uten enkeltvedtak:

Fig 1.

Utvalg med enkeltvedtak har W-III IQ M= 85,23, og uten enkeltvedtak W-III IQ M=93,54. Dvs. at utvalg uten enkeltvedtak i gjennomsnitt har drøyt 8 poeng høyere sumskåre på W-III. Tilsvarende %-fordeling for VQ og PQ viser at spesielt W-III slår ulikt ut i disse to gruppene.

Ved tolkning av utvalgene må det reserveres for virkningen av noe forskjellig testalder (her oppgitt i mndr);

- enkeltvedtak m. W-R M = 114, 4 (N 15)

- enkeltvedtak m. W-III M = 129,37 (N 88)

- ikke enkeltvedtak m. W-R M = 124,21 (N 18)

- ikke enkeltvedtak m. W-III M = 140,22 (N 49)

Elever med og uten enkeltvedtak ble testet i gjennomsnittlig ca 1,3 års lavere alder med W-R enn med W-III.

BRUK AV WISC

Kontoret er lite utstyrt med tester. WPPSI ble først kjøpt inn 2008. W-R er brukt lite etter at W-III kom, jf. i utvalg m. enkeltvedtak:

Fig 2: Historisk bruk av W-R/W-III

Fig 2.

R og W-III i kontorets materiale fantes gjennomført med god kvalitet, gjennom siste 10 år av like mange fagpersoner. Ved delvis kontroll fant jeg avvik i sumskåre bare i et fåtall saker, på under 3 poeng. Regneprogram brukes i en viss utstrekning.

De alternative delprøvene merket ( ) i WISC var utelatt i et fåtall av enkeltvedtaks-sakene (eks: symbolleting 1 i W-III, labyrint 7 i W-III og 2 i W-R), og tilsvarende lite i utvalg ikke enkeltvedtak. Dvs. at WISC i stor grad er fulgt opp komplett. Det er forskriftsmessig, men kanskje noe bundet. Våre saksdata fra 2.linje og nevro viser mer eklektisk bruk av deltester, dog uten at validiteten for slike utvalg er mer tydeliggjort.

Uttalelser, og testomtale i maler

Innsynsberettiget omtale av WISC-data i de sakkyndige utredningene utelater tallmessige resultater forskriftsmessig . Men testbaserte formuleringer er ujevnt samordnet. Jeg registrerer en ”mote” i at sakkyndige utredninger i stor grad baseres på maler, der testinnholdet i WISC refereres til dels in ekstenso. Ofte fokuseres resultat på sekundærsummer, spesielt forskjell verbal/utføring. Slike deskriptive indikasjoner følges i liten grad opp med fortolkning og konsekvensråd. Det er forståelig, for praktisk validitet er generelt lite påvist (jf. forsøk i Egeland/Andreassen/ Sundberg/Stensli 2006). Samlet sett anser jeg at linjer brukt på testinnhold skinnlegitimerer manglende oppgaverelatert valididet. Her skal den lokale PPT-praksis være aldeles unnskyldt, for slik ”mote” sees både i dok. fra andre PPT og 2.linje. Nedtoning av denne praksis diskuteres ved kontoret. Normalpraksis er ikke kjent. (Fylling, Ingrid / Handegård, Tina: 2009 s. 99) anfører en lærer med bl.a. ”vi opplever ikke at den psykologiske biten diskuteres, de er mer opptatt av hva testen viser”. Skjer bruk av test for generell kapasitet dels som en pliktøvelse? Jakten på validitet og begrunnelser for PPTs testing bør i større grad føres på psykometrisk arena. Vi bør ha bedre svar på ”hvorfor teste, hvorfor WISC”.

”Normalområdet”.

I omtale av ”normalområdet”, varierer lokale tolkninger fra (underliggende tallmessig referanse) 90-110 til (SD) 85-115. Kontorets fagpersoner skal også her være unnskyldt, for slik variasjon sees fra presumptivt mer kompetent hold. Akademika oppfattes fortsatt å angi 90-110, mens W-III- manualen (sv. 1999) bruker SD og drøyt det (s. 91 ” -eksempel barn med IK 83 +/- 7 dvs 76-91 med 95% sannsynlighet -ligger i nedre del av normalsonen”). Fra et 2.linje-dok tas med cit: ” Totalresultat - - i nedre del av normalområdet mer enn et standardavvik under gjennomsnitt for alderen”! I en artikkel (Nilsen, Dag Øyvind Engen; 2005) heter det ”—normalområdet (80-120)--”. Presist er det jo ikke, og et helt tema for seg!

NORMERING

W-R er et sjeldent tilfelle av forsøk på skikkelig norsk (standardisering)/normering. Den kom på markedet i USA ’74 (jf. original ’49), norsk utgave 1975 basert på N=766 (Undheim, Johan Olav; 1978). W-R ble tidlig ansett som noe for ”snill”. Dette var en generell erfaring med flere andre tester (Mønnesland, Raven osv.), og må også sees på bakgrunn av ”utviklingsgevinst” (Flynn effekt). I dag finnes W-R utstyr lagret og ikke brukt ved mange PPT. Håndbok/regneprogram kan fortsatt kjøpes, utstyret er utsolgt. Er det ubrukbart? De fleste har vel sluttet å bruke W-R da W-III kom (jf. fig 2), noen i protest, - andre argumenterer pro W-R i klinisk og skjønnsom bruk. Grunnregelen akademisk er 10 års foreldelse. Noen items er åpenbart utdaterte og lett kritiserbare. Men mange eldre tester er i bruk. W-R erkjennes å ha skjeve normer, men kan fortsatt ha god validitet. Bør ikke da normene kunne kalibreres (korreksjonsfaktor), og testen fortsatt være funksjonell? Enhver kan lage alternative normer til en test, men retting av items må ha utgivers godkjenning. Ved vårt kontor står 2 komplette W-R i et skap. Skal de kastes, eller brukes med vett og f.eks. ca. 5% normjustering?

Norsk W-III kom på markedet i svensk versjon ’99 (USA ’91) basert på N= 1036 (’94-’98), og er ft. den vanligst brukte i PPT. Noen berettigede kritiske innspill har vært spesielt rettet mot normeringen (Strand, Nina: 2005 og Fallmyr, Øyvind: 2006) og kulturfaktorer, jf. godt og realitetsorienterende tilsvar fra utgiver (Nilsen, Dag Øyvind Engen: 2005). God normering er meget ressurskrevende.

W-IV (USA 2003) er h.09 ferdignormert i norsk versjon.. Kostnaden (test, forbruksmateriell, sertifisering) for PPT med lave testbudsjetter er stor. Hvor godt representerer testvilkårene i nye normeringsutvalg den reelle brukssituasjon for elev og testadministrator? Det er lett å stille kritiske spørsmål. Ansvar for bedring må definitivt deles mellom utgiver og brukere både av gamle og nye tester.

WISC-testene er brukt i et enormt antall internasjonale undersøkelser, og er meget velrennomert. Behovet for nasjonal og lokal etterprøving er av prinsipiell mer enn praktisk karakter, likevel er mangelen på dette alvorlig nok.

Tab. 1: Sammenligning W-R med W-III

Elever med enkeltvedtak 0809
Utgave	VQ	PQ	IQ	N
W-R	90,80	103,40	96,73	15
W-III	85,66	89,02	85,19*	89
Elever uten enkeltvedtak 0809
W-R	97,06	98,22	97,39	18
W- III	90,49	98,45	94,53	42

*) IQ M er her mindre enn VQ/PQ; kan skyldes normavvik i lavt område.

W-R skiller lite mellom utvalgene, mest i VQ. W-III skiller ca. 10 Q-poeng mellom utvalgene, minst i VQ. Felles tendens som forventet at enkeltvedtaks-elever i snitt har lavere testresultat, unntak W-R PQ. Standardavvik for W-III er VQ 14 PQ 18,9 IQ 16,8 og for utvalg uten enkeltvedtak VQ 18,5 PQ19 IQ16,8 (normalutvalg skal ha 15). Dvs. at spredningen er litt større enn og varierer litt rundt normal.

Forskjellen mellom W-R og W-III er betydelig. Det stemmer med erfaringer og publiserte rapporter, men skyldes også ulik rekruttering til utvalgene. Sammenligning av W-R og W-III forutsetter således at utvalget saker til lokal PPT de siste årene er tilfeldig. Det er det neppe, jf. bl.a. forskjell i testalder bekrevet ovenfor.

W-R skårer noe høyere enn W-III, spesielt i utvalg enkeltvedtak. Der er mest påfallende forskjell W-R/W-III i PQ. I utvalget uten enkeltvedtak sees W-R og W-III med samme nivå for PQ, W-III har PQ høyere enn VQ og IQ. I sum får begge utvalg høyere PQ enn VQ og IQ. Det kan være en normerings-skjevhet, eller muligens at PPT-klienter generelt står sterkere på ”kulturfri” oppgaver. Elever med ikke-norsk bakgrunn er relativt få hos oss.

Fig 3: % av IQ for utvalg med enkeltvedtak viser overvekttendens W-R.

Fig 3.

Selv om utvalgene har vært noe forskjellige, bør det etter mitt syn være mulig fortsatt å bruke W-R, med grovkalibrert korreksjon / %-fradrag (eks: 5% fradrag i PQ), forutsatt etterprøving. Som alternativ til å kaste W-R kan det være regnings-svarende. I samme stil kan det forslås 5% tillegg for W-III VQ, som av flere har vært ansett ”streng”. De artikler som har undersøkt og drøfter pro/con W-R/W-III (Strand, Nina: 2005 og Sundberg/ Egeland/Andreassen/Stensli: 2006) går ikke inn på slike alternativer.

”Cut-off; ja/nei”

Resultater på WISC-testene skiller som vist i tab. 1 tydelig mellom PPTs elever med og uten enkeltvedtak. Kan dette gi bidrag til f.eks. grenseoppgang for ”ja/nei; rett til spesialundervisning”? Hvis vi velger en IQ-grense, har W-III i vårt utvalg med enkeltvedtak 6 av 89 elever med IQ over 108, i utvalg uten enkeltvedtak er 33 av 47 under 108. Det en kan si, er at sjansen for ja/enkeltvedtak etter test er bare 6/89=6,74% med bedre enn slikt resultat. Når 33/47=70% testet uten enkeltvedtak har svakere resultat, illustrerer det kanskje noe feilprioritering, men mest at mange elever klarer seg bra i skolen med lav testskåre. Ensidig bruk av WISC-testene til slik grenseoppgang er tvilsom, men praksis er ikke kjent. Et minstekrav for ”ja/nei” er i alle fall at WISC vurderes i sammenstilling med mål for pedagogisk retardasjon – et svært forsømt felt!

Delprøvenormene

Tab. 2: Sammenligning av delprøver W-R / W-III, utvalg enkeltvedtak. W-R deltester org. i W-III rekkefølge

	Infor masjon	Lik heter	Reg ning	Ord forst.	Forst. Reson nering	Tallhu komm.	Bilde utfyll.	Koding	Bildarr tegne serier	Ter ning møn.	Pusle spill	Sym bol leting	Laby rint	N
W-R	6,87	10,00	7,47	9,40	9,67	8,13	11,07	8,47	10,93	11,20	10,27		10,77	15
W-III	7,29	8,94	6,56	8,22	7,91	7,42	9,25	6,94	8,56	9,06	9,24	7,95	7,74	89
WR-W-III	-0,43	1,06	0,90	1,18	1,76	0,72	1,82	1,52	2,37	2,14	1,03		3,03	1,42

Bortsett fra i Informasjon gjør utvalg med enkeltvedtak det konsistent bedre (gjsn 1,4 prkl.) på W-R enn på W-III.

Fra tilsvarende tabeller refereres noen tentative kommentarer:

- Utvalg uten enkeltvedtak gjør det konsistent bedre på VQ, svakere på PQ i delprøver W-R

- Utvalg uten enkeltvedtak gjør det konsistent bedre på alle delprøver W-III, i langt større grad enn W-R

Jeg fortolker ikke her, men anfører at slik oppstilling også bør utvikles og konsekvensene bevisstgjøres ved fremtidig bruk av W-IV.

Aldersnormer

Dersom normene oppfyller forutsetningene, skal de kompensere fullt ut for alder. Dvs. at overføring fra råskåre til skalerte skårer i WISC ikke etterlater noe samsvar mellom alder og testresultat.

I vårt materiale sees flg. korrelasjoner mellom testalder og W-R/W-III hovedsummer

VQ PQ IQ

W-III enkeltvedtakssaker: -0,19 -0,36 -0,31

W-R enkeltvedtakssaker: -0,43 -0,58 -0,58

W-III andre saker -0,51 -0,18 -0,54

W-R andre saker 0,31 0,22 0,30

Negativ r betyr ”jo høyere testalder, jo lavere Q”.

Dette er i utgangspunktet avvik som må tas alvorlig. Elever meldt til/testet av PPT i høyere alder får i snitt lavere testresultat. Dvs at identifikasjonen av de svakeste ikke virker på tidlig aldersstadium. Det er ikke ukjent at svakfunksjon skjules, eller at åpenbart svake yngre elever skånes for testing. W-R brukt på gjennomsnittlig litt yngre elever, har trolig ikke fanget opp tilsvarende andel av disse. Mindre sannsynlig, men mulig, er at WISC- normene ikke fullkompenserer for alder i utvalget, dvs. for resultater lav normal og under. Normerings-utvalg er ofte svake i dette området. Det kommer også inn at testresultatene i lavområdet er noe mindre pålitelige.

Korrelasjonene spriker en del. Kvalitetssikring og analyse krever tid og større materiale. Den rest som evt. skyldes skjevnormering, er vel verd å følge opp.

RELIABILITET

Hva enn WISC måler, bør resultatet være stabilt, dvs. at samme resultat oppnås en neste gang. Split-half, dvs. konsistens mellom to halvdeler av samme test, gir gjerne høye verdier (for W-III r.96). Mange tidligere evnetester ble publisert med en A- og B-utgave, for variert re-test. Gjentatt test med samme versjon er siden blitt mer stueren. W-III rapporterer en ”gevinst” ved test-retest på ca. 3 poeng hvis tatt innen kort tid (1-2 mndr), men stor ulikhet for deltester. Vårt materiale omfatter få test/retestsaker.

Trettbarhet:

Det foreligger flere am/br. studier av dette, og det er ikke uvanlig med forkortede versjoner av W-testene. Opprinnelig WISC (’49) administrerte alle V deltester før P. Det kunne føre til at spesielt trettbare fikk svakere P enn V pga. liten utholdenhet.

En forskjell kan tenkes mellom split annenhver deltest tatt gjennom administrasjons-forløpet, og split mellom første halvdel tatt og annen halvdel tatt. Det siste alternativ kan si litt om evt. individuell test-trettbarhet:

I W-R og W-III er V og P- oppgavene fordelt annenhver en i testprogresjonen. Split-half mellom første 1-6 deltester administrert og siste 1-6, med like mange V som P deltester i hver, gir en rsplh = .79 i utvalg enkeltvedtak. Men de første 6 administrerte deltester får i snitt bare 1.6% høyere sumskåre. Et forsøk på split-half nøytralisert for tretthet (like mange V og P deltester parvis tidlig/sent) ga en liten fordel til de yngste 50% i materialet. De IQ-svakeste 50% synes også å påvirkes av tretthet. Forskjellen kan kompenseres ved at unge/testsvake elever får pause eller at testen deles på to dager, noe som vel praktiseres. Klokkeslett, dagsform, optimal persondøgntid og prøvesituasjon er momenter som kan slå ganske kraftig ut i individuelle tifelle.

Hvis std. prkl. 1:

Tydlige avvik sees ved at en deltest har falt spesielt lett eller vanskelig. Det gir flg. forekomster:

Tab. 3: % forekomst av std.skåre 1.

Utvalg med enkeltvedtak; 50% svakeste IQ, N 60 i43 saker:

Informasjon	6,98
Likheter	4,65
Regning	2,33
Ordforst.	4,65
Forstand, resonnering	11,63
Tallhukomm.	2,33
Bildeutfyll.	9,30
Koding	2,33
Bildearr./tegneserier	0,00
Terningmøn.	9,30
Puslespill	9,30
Symbolleting	25,58
Labyrint	11,63

I underutvalg 50% beste IQ forekommer std.skåre 1 til sammenlignng bare 3 ganger.

Det er ikke forbausende at pr.kl. 1 forekommer i utvalg svakeste IQ, men hyppigheten gir grunn til årvåkenhet. Bilde/tegneserier har ingen pr.kl.1. Symbolleting og forstand/resonnering høster mange!

En kan spørre om normene i lavt skåreområde er tilstrekkelig presise deltestene imellom. Utgiver er ydmyk ifht. det (Nilsen, Dag Øyvind Engen: 2005). Hvorvidt en avvikende svak skåre skal regnes som representativ svakhet på prøvd område eller som avvist/ikke oppfattet oppgave, er en vurderingssak. Hvis std.skåre 1 registreres bør en kryssteste antatt evnesektor.

Profil-avvik:

Omtalte tilfelle av prkl. 1 gjør også utslag på WISCs profilbilde. En kollega så verdien av å inspisere avvik på bakgrunn av hele resultatmatrisen, og la bla. merke til at det ikke er noen m/u enkeltvedtak og med IQ-skåre over 75 som skårer høyere på W-III VQ enn på PQ. ”Streng” W-III VQ synes fordelt over mange saker 75+, trolig en normeringsfaktor.

Utløser profil-avvik generelt flere enkeltvedtaks-timer? Det kan enten bety at elever med sprikende evnestruktur har reelle behov for mer ekstra hjelp, eller at fagpersoner som ser slike avvik i profil, mener at det trengs!

Jeg har regnet elevens gjennomsnittlige deltestskåre, deretter absolutte avvik (+ og -) fra denne på de enkelte deltester og delt dette på gjennomsnittet. Det skulle gi et grovt mål for ”jevne kontra taggete profiler”. Samsvaret mellom grad profilavvik og enkeltvedtaks-kriteriet er i W-III materialet (N= 68) r. 22 (jo større avvik, jo fler timer). Det er ikke særlig stort samsvar, kanskje gir ikke min formel full korreksjon. Sikrest er om et utvalg profiler i en særskilt undersøkelse vurderes av flere fagpersoner for relevans i forhold til enkeltvedtak. Er noen PPT mer profil-orientert enn andre?

VALIDITET

Hvis tester skal være nyttige ”arbeidshester” i PPT, bør de samsvare med kriterier for oppgaver tjenesten skal løse. Kriterier er et gjennomgående problem i faget, både for psykometrisk og ped/klinisk metode. De aktuelle og delvis tilgjengelige kriterier for testbruk, som følges opp her, er

Enkeltvedtakstimer. Kan de predikeres av WISC, som da bl.a. kan bidra til å redusere variasjoner i tilrådinger?
Hovedvansker er et sekundærkriterium for tester. Kan de avgrense grupper der WISC m. deltester er mest prediktiv? Testen kan da bidra til bedre ”sortering” av vansker.
Retardasjon. Differense evner/ferdighet har tidligere vært fokusert som kriterium for ja/nei til spesialundervisning.
Skolekarakterer gir klassisk validering av tester for generell kapasitet.

Enkeltvedtakstimer

WISC tester generell læringskapasitet/potensiale. I utgangspunktet skal det ikke være slik at jo svakere evner, jo fler enkeltvedtakstimer. Ressurs-svake elever som arbeider opp mot sitt beste, skal ha ros og ikke spesialundervisning. Sprik i forholdet ferdighet/evner er nærmere målet, men da må PPT kartlegge ferdighet, noe den gjør i liten grad.

Kriteriegrunnlaget er tilrådde = vedtatte timer. PPT angir ikke timetall i sine sakkyndige utredninger, men i sakkyndige vurderinger iflg. §5. I Nesodden følger vedtakene normalt timetilrådingene, men de tar oftest forbehold om ”organiseringfaktor”. Det betyr at eleven er sikret timetallet, men at ”metningsgraden” kan variere tildels betydelig. Om PPTs grunnlag for tilrådingen kan det sies mangt. Tjenesten skal ha forestillinger om elevens behov i forhold til ”likeverd”, ”utbytte”, mulighet for å ”nyttiggjøre” og forholdet evner/ferdighet. Det er utviklet holdepunkter for dette (Ot.prp. nr. 46 (1997-1998); § 6, og NOU 2005:8) som i liten grad er operasjonalisert. Vurderingen blir derfor kvalifisert gjetting. Variasjoner florerer innen og mellom PPT-kontorer.

Et spesielt problem er å angi riktig timeressurs der vedtak angir ”fulldekning”. Timetall og testresultat for elever med store behov påvirker statistiske beregninger mye. Jeg har utelatt noen ekstremsaker i beregningene. Det er kjent problematikk i mange statistiske oppsett. I mine bereginger er assistent-timetall inkludert med 50% vekt (ofte praksis), selv om kostnadsfaktoren for assistent har økt, og ca 62% nå kan være riktigere. Gjennomsnitt timetall blir på dette grunnlag: spesped.timer M=267,30; assistent-timetall M=319,84; og for spes.ped-timer inkl. 50% assistent M=295,35.

Fig 4: Fordeling av enkeltvedtakstimer

Fig 4.

Fordelingen er høyreskjev; svært mange lave timetall tilrås/vedtas. Kurvaturen må forstås som konsekvens av at ennå lavere timetall overlapper med stor satsing på ”forsterket undervisning” (ikke vist, til venstre for grafen), og ennå lenger til venstre, med vanlig undervisning. Riktig visning av hva en hjelptrengende elev samlet mottar, burde derfor ha med et mål for ”samlet tilgjengelig voksentid” som er vanskelig registrerbart. De høye timetallene vil fremvise ”humps” i lite materiale pga. elever med spesielt store behov. Det vedtatte timetall inneholder”støy”, og har en fordeling som krever statistisk tilpasning hvis det skal predikeres. Likevel; hvor godt kan det gjøres?

Prediksjon av enkeltvedtak?

Når WISC i så stor grad brukes ved utredning av behov for enkeltvedtak, må berettigelsen også dokumenteres psykometrisk. Feilfaktorer både i test og kriterium reduserer forventningene.

Materialet er stort nok til gi et visst beregningsgrunnlag. For enkeltvedtaks-timer vs. W-R/W-III hovedsummer er korrelasjonene r (Pearson):

W-R VQ= 0,03 PQ= -0,16 IQ= -0,07 (N 15)

W-III VQ=-0,18 PQ= -0,17 IQ= -0,18 (N 89)

I hele materialet er samsvaret mellom testene og enkeltvedtaks-timer minimalt, med tvilsom tendens populært forventet ”jo lavere Q, jo høyere enkeltvedtak.”

Samsvaret med årstimer inkl. assistent er litt mindre svakt:

W-III: VQ= -0,22 PQ= -0,18 IQ= -0,20

Dette også fordi utvalget med assistent har gjennomsnittlig lavere W-III og større behov, dvs r øker bl.a. ved større SD.

Større presisjon kan oppnås ved regresjon R, dvs. at W-III-deltestenes samsvar med kriteriet enkeltvedtak optimeres i en ”kalkulator”. Dette er mest regnings-svarende dersom det utføres for elevgrupper med hovedvansker som WISC logisk sett kan forventes å predikere. Dvs. for lese/lære/fagvansker etc, og i liten grad for sosiale/psykiske/ medisinske vansker. Utvalget må derfor bygge på informasjon om vanske-faktorene i materialet:

2. Hovedvansker i utvalg med og uten enkeltvedtak

I bruk av tester for prediksjon vil hovedvansker HV fungere som en sekundær beregningsvariabel. De forekommer innlogget i PPT-kontorenes journalsystemer (HK, Visma, Dagny). Som regel angis de overslagsmessig av fagpersoner til kontorets rapportformål. Vanskene har oftest ikke en tverrfaglig gjennomarbeidet begrunnelse. Dertil logges inn tilleggsvansker, hos oss uten antallsbegrensing eller prioritering. Noen fagpersoner bruker mange alternativer, andre få. Hovedvansker i HK-normalen er ikke ledsaget av ”grad” av vanske, men 9 funksjonområder er hos oss ft. gradert 1-4 + ”usikker”. ’09 finnes innlogget i HK ved Nesodden PPT:

- 35 forskjellige hovedvansker i spesped.utvalget, N=158.

- 20 forskjellige hovedvansker i utvalg uten enkeltvedtak men med WISC, N= 69

Tester kan bidra til å sortere/rydde litt i dette. Utdrag av mine arbeidskommentarer:

”Samlet sett har oppmerksomhet og lese-skrivevansker størst %-frekvens, I begge tilfelle er % høyere i WISC-saker uten enkeltvedtak. Dvs at mange med slike anførte vansker er testet med WISC, uten at det har resultert i enkeltvedtak 0809. Oppmerksomhet utløser trolig enkeltvedtak i mindre grad.

Lesevansker vil oftere være testet med andre tester enn WISC (Logos/Koas mv).

Dernest har fagvansker og matematikk høy forekomst. Disse vanskene utløser ofte enkeltvedtak, men testes om lag like ofte uten at det gir enkeltvedtak. Samme tendens gjelder i mindre grad for emosjonelle vansker.

Lavfrekvente er de typiske "diagnoser" adhd, dysleksi, asperger, autist , pu, Tourette; alle oppført som hovedvanske. Det reflekterer relativt nøktern bruk av termene, men også at de overstyrer andre funksjonsvansker. For eksempel ser vi ikke innlogging som HV av fagvansker/lærevansker/ generelle lærevansker med noen av disse ”diagnosene” som tilleggsvanske”.

Det kan vurderes som påfallende at fagvansker + matematikk langt oftere logges som tilleggs- enn som hovedvanske. Til sammenligning logges ca 33% med hovedvansker lese/skrivevanske og dysleksi.

Hovedvansker; utvalgte kategorier med enkeltvedtak vs. W-R/W-III

I lokal rapporttabell for dette er tallene i enkelte celler så små at personvern tilsier kun intern rapportering. Her noen eksempler for relativt høyfrekvente vanskegrupper:

Tab. 4: Utdrag av tab. for gjsn. timetall enkeltvedtak og hovedsummer W-R/W-III

	N	Av alle	EVT*	EVT*	W-III	W-III	W-III	W-III	W-R	W-R	W-R	W-R
Kategorier	HV	%	N	M	N	VQ	PQ	IQ	N	VQ	PQ	IQ
adhd	14	9,0	12	303,2	7	96,4	89,9	92,4	2	98,5	107,0	103,0
dysleksi	11	7,1	11	176,2	5	97,0	104,0	98,8	3	88,7	112,0	100,3
lese-skrive	40	25,8	31	181,7	27	86,1	94,1	87,7	4	87,5	97,8	92,3

*) EVT = enkeltvedtak i årstimer/60 min)

Adhd har høyt enkeltvedtakstimetall. "Dysleksi" og "Lese-skrivevansker" har lavt; her sees høyere Q for dysleksigruppen enn for lese-skrivevansker.

Samsvar (korrelasjon) enkeltvedtak/WISC er som vist ovenfor minimalt for hele materialet. Det er mer å forvente for utvalg der en evnetest logisk sett bør ha noe vekt i vurderingen:

For utvalg Lese-skrivevsk. er samsvar vs. enkeltvedtak:

W-III VQ= -0,56 PQ= -0,10 IQ= -0,31 N= 27

W-R VQ= -0,48 PQ= -0,97 IQ= -0,77 N= 4

For utvalg dysleksi:

W-III VQ= -0,66 PQ= -0,45 IQ= -0,53 N= 5

W-R VQ= -1,00 PQ= -0,98 IQ= -0,99 N= 3

N er her langt under minstekrav, men tendensene er konsistente og gir ”meningsfylte” samsvar. Dvs. at jo svakere W-R/W-III, jo flere årstimer gis spesielt for elever med hovedvanske ls/dysleksi og svake Q. Basert på tendenser i gjennomsnitt mv. for disse to gruppene er det grunnlag for å slå dem sammen i en beregning av optimalisert samsvar (regresjon), jf. avsnitt nedenfor.

Andre hovedvanske-utvalg der samsvar enkeltvedtak./WISC kan forventes, er fagvansker, matematikk og mindre generelle lærevansker. Tallene er små, men blir betydelig større dersom vi regner saker der fagvansker er tilleggsvansker. I et svært lite utvalg for ”diagnoser” (adhd, Asperger, autist, atferd) sees at lav Q gir høyt enkeltvedtak for adhd, men motsatt for atferd. Å si at atferdsdiagnose (adhd) derfor er mer utslagsgivende for enkeltvedtak enn ”ikke-diagnose” atferd, er å tøye tallene for mye i retning av hva enkelte i PPT nok tenker! Men hva hvis stort materiale viser det samme?

Optimering av prediksjon (regresjon R) enkeltvedtakstimer i et underutvalg hovedvanske.

Et psykometisk alternativ er å la deltest-standardskårene være basis for prediksjon av eksterne kriterier. Da er det å forvente at det oppnås måltall som er høyere enn for ordinære sumskårer VQ PQ IQ. På den annen side er å merke at jo mer en tar inn av detaljer fra en test, jo mer av ”tilfeldig samsvar” blir med på ferden. Dvs. at hvis regresjons-beregningen nyttes/beregnes i et annet materiale, vil R falle noe.

For kombinert utvalg hovedvanske lese-skrivevansker + dysleksi oppnås vs. enkeltvedtak en R .85 (N 22). Tilsvarende for hoved/tilleggs- fagvansker R .87 (N 26). Dette er samsvar som ”forklarer” ca. 72% / 76% av variasjonene i enkeltvedtaks-timer. I betraktning av at kriterievariabelen enkeltvedtak ikke er perfekt, tilsier samsvaret at psykometrisk bruk kan ha nytte. Samsvaret her er sikkert i høyeste laget, for evnetest skal egentlig ikke forklare så mye av enkeltvedtaks-variabelen! Men det vil styrke grunnlaget for R å inkludere andre tester, som de ca. 180 Koas/Logos-resultatene ved vårt kontor.

I tillegg forutsetter regresjonsformelen i Excel normalfordelte variabler, mens utvalget vårt er skjevt både i prediktor W-R /W-III og i kriteriet enkeltvedtak. Det betyr at bruk av en prediksjons-formel basert på R-vektingene vil komme ut med betydelig misvisning. Korreksjon er mulig, men konsultasjon med eksperter har foreløpig ikke gitt meg gode svar! R-vekter innsatt som fast formel i et Excel-regneark vil likevel gi en beregning som kan gi en referanse ved sakkyndig vurdering av tilrådd timetall.

3. Retardasjon

Som kriterium for enkeltvedtak ble dette begrepet fokusert sent på 80-tallet. Akershus PPT foreslo tidlig (Meyenberg 2005) 2 ½ års pedagogisk retardasjon som ja/nei grense i tilråding. Som presisering hadde det noe for seg, men PPT manglet jo mål for pedagogisk status. Begrepet var lite fordøyelig og. slo tynt an utenfor Akershus. Det er liten tvil om at pedagogisk retardasjon påvirker enkeltvedtakstimer, nær sagt uansett måloppnåelse. Faktoren relativ retardasjon i forhold til forutsetninger - underyting – er også aktiv, men i mindre grad fra medio normalfelt evner og bedre. Dvs. at en ”prestasjonskoeffisient” 90 (hvis etablert) neppe gir enkeltvedtak ved IQ 110 (”-føresetnader for å lære raskare og meir enn gjennomsnittet, har ikkje rettar etter § 5.-”).

Mål for prestasjonsnivå kan PPT etablere på bakgrunn av egne og skolenes kartleggingsprøver. Det har vært lite praktisert. De senere årene har skolene fått mer systematisk materiale her, men resultatsamarbeid med PPT hører til unntakene. Et annet underlag er skolenes evaluering. Den skal gis halvårlig verbalt med skriftlig underlag frem til 8.kl. Arkivering er ujevn, og innholdet er generelt svært lite egnet for nivåoperasjonalisering. Til jul i 8.kl gis imidlertid karakterer som i noen grad kan være prestasjonskriterium:

4. Skolekarakterer

PPT kan legitimt innhente karakterer for etterundersøkelse av tjenestens arbeid. Plan med formål og registrering ble godkjent av kontorets leder og skolesjef. Rektorene var positive, såfremt registreringen ble utført av PPT. Datasikkerhet ble ivaretatt idet reg. ble en spesielt lagret del i PPTs journalsystem.

I praksis måtte dette avgrenses til reg. av karakterer fra jul i 8.kl. Som første karakter-setting for kullene kan jul i 8.kl muligens være mer ustabil enn f.eks. juni i 8.kl. Tilbakemelding til skolene ble gitt i særskilt rapport.

Formålet var først og fremst å gjennomføre en ”validering” av WISC-testene vs. skoledata. I klassisk test-utvikling har skolekarakterer vært et hovedkriterium. Senere sees dette sjeldnere. Det foreligger eldre utenlandsk materiale, f..eks. W-R r.39 ( i Sattler ’92 s. 125). Jeg finner ikke noe norsk. W-III manual s.59 omtaler korrelasjoner i området r.55 vs ferdighetstest (samtidig, dvs. ikke prediktivt).

WISC-testene er såvidt velkrediterte og validerte at en kan spørre om det har noen hensikt nok en gang å påvise at samsvar for IQ vs karakterer optimalt kan være r.55-.65 i normalutvalg? PPT er nok lite opptatt av å beregne fremtidige skolekarakterer, men prognose for valg av 2.språk/kvalifikasjon for vgs. allmennfag bør ha interesse.

Her sees samsvar hovedsummer / hovedkarakter i utvalg med enkeltvedtak:

N 40	N 40	N 40	N 14	N 14	N 14	N 54
W-III VQ	W-III PQ	W-III IQ	W-R VQ	W-R PQ	W-R IQ	Gjsn/EVT
0,51	0,57	0,57	0,12	0,21	0,18	-0,13

Dette er svakere samsvar enn forventet ut fra klassisk generell rapportering for normal-utvalg. En del-forklaring er nok at PPT-utvalget har lav M og SD. Likevel kan en trekke den slutning at W-III i beskjeden grad predikerer gjennomsnittskarakter i 8.kl til jul. At W-R viser påfallende lavere prediksjon kan skyldes lengre prediksjons-tid (fra testtid til jul i 8.kl,), lavere antall, tilfeldigheter i utvalg, - hvis en ikke vil mene at W-R gir lavere prediksjon, noe som er mindre sannsynlig.

WISC er ikke konstruert primært for å samsvare med skolens prestasjonsmål. Samsvar med disse blir bare en del av testens validitet.

PQ med ”ikke-kulturelle, ikke-verbale” deltester er svake prediktorer på linje med verbale. Hvis dette bekreftes av mer pålitelige data, er det mot tradisjonell forventning. En teori kunne være at de ikke-verbale deltestene samsvarer bedre med fag som er mindre obligatoriske/teoretiske. Men sum r (grovt mål) for Kristendom, Kunst/håndverk og Kroppsøving viser motsatt tendens i vårt utvalg m/ enkeltvedtak.

Karaktergjennomsnitt har meget svakt, negativt samsvar (r.-.13) med enkeltvedtak. Dvs. at (til tross for) høyere enkeltvedtaksnivå, oppnås svakere karakterer. Det er som forventet, men slår ut såvidt lite tydelig at det likevel kan tolkes optimistisk som effekt?

Langtidsprognoser og praktisk bruk

Mange valideringskriterier for tester er samtidige, f.eks. mellom evnetester, eller evne- vs. ferdighetstester tatt innen kort tidsspenn. Det samme gjelder undersøkte samsvar test: skolekarakterer. Vårt materiale gir en liten mulighet til å se hvilket presisjonstap tidsavstand gir. Jeg har da regnet M og r for W-III Q vs skolekarakter i utvalg med lang og kort tidsavstand mellom test og karakter i 8.kl. I praksis ble dette 22 testet før 8.kl og 18 i eller etter 8.kl. Her synes tendensen å være:

- utvalg testet før 8.kl har 12-16 VQ PQ IQ poeng (M) høyere enn utvalg testet i eller etter 8.kl. De får også litt høyere gjennomsnittskarakter i 8.kl.

- samsvaret mellom W-III og kararakter er godt (r .77 - .84) for elever testet i eller etter 8.kl, men meget svakt for utvalg med lav testalder.

Forskjellen i M kan tilskrives normskjevhet eller at sent testede elever ikke ”oppdages” å ha lavere ressurser før ungdomsskolens vurdering tydeliggjør vansker. Skolekarakterer og test tatt i ungdomsskolen samsvarer rimelig godt. Tester gir generelt mer pålitelige resultater i ungdomsalderen. Den lave prediksjonsverdien ved lav testalder er påfallende.

PPT involveres i liten grad i vurdering av fremtid for elever. Prognoser for valg av fremmedspråk i ungdomsskolen, og allmennfaglig studieretning i vgs. er derfor en kuriositet for PPT grunnskolen, mer aktuelt for PPT vgs?

For å undersøke prediktivt samsvar har jeg likevel regnet regresjon R vs. karakterer til jul i 8.kl. Her vises en demo av hvorledes predikert karakter i matematikk kan brukes til å identifisere mulig ”underyting” sett i et scattergram:

Fig. 5: W-III R .80 vs matematikk jul 8.kl N=39

I eksempel her sees bl.a. to saker med karakter 3 til jul der W-III R (predikert) er 3,417/ 3.457). Disse to elever er da på grensen til å (burde?) få karakter 4 til jul. Ingen av disse to har heller fått +/sterk påført karakteren 3. Fra et rådgivings/oppfølgings-synspunkt kan det ha interesse å finne ut om disse to elevene

a) enten har skåret over evne på vektede delprøver i W-III, eller

b) er undervurdert av matematikklærer eller

c) er underyter av andre grunner

Slikt avvik i forhold til ”målte evner” skjer i disse tilfellene til tross for at begge mottar spesialundervisning. Oppfølging og drøfting av slike tilfelle bør være av nyttefaktorene ved slike observasjoner.

UTVIKLINGSMOMENTER

Denne undersøkelsen

er utført av fagpersonvikar i tjeneste ved PPT. I dette tilfellet avtalte vi internt ca. 50% på arbeidstid og ca. 50% ved frivillig dugnad. I betraktning av generell tilstand i PPT når det gjelder FOU, er den lokale åpenhet positiv. Utdraget til artikkel er godkjent av leder, men er forfatterens ansvar.

Etterundersøkelser og testsektoren

Tilsvarende etterprøving av PPTs arbeid sees ikke publisert. Tidsbruk på datafangst, beregninger, kvalitetssikring og rapportering tar mer tid enn ledere og skolesjefer lett kan prioritere. Jeg håper mer enn tror at det finnes lokale etterundersøkelser som ikke rapporteres i artikler eller på nettet forøvrig. Et hinder kan være at eksponering er forbundet med kvalitetskrav som er tidkrevende å leve opp til.

Personlig ser jeg et stort udekket behov for arbeider relatert til bruk av WISC og andre relevante tester i PPT. Dette er et felt uten ”EU-kontroll”. De tendenser som er funnet for W-R/W-III vil høyst sannsynlig finnes i neste utgave (W-IV) og andre tester.

Datalagring

Grunnlagsdata er lagret på intern CD oppbevart i PPTs journalsystem. I annen CD med nøytralisert utdrag er navn, f.data, saksbehandler, skole, klasse tatt bort. Tanken var at den nøytraliserte CD kunne deles med annen PPT for å muliggjøre samling av originaldata og utregninger på tvers av PP-kontorer. PPT Nesodden har søkt avklaring av dette med Datatilsynet. Så langt sies det at konsesjon må søkes for slik utveksling, selv om PPT etter Personopplysningsloven ikke lenger har konsesjonsplikt. Etablering av slikt samarbeid krever dermed generelt system- og forskningstiltak etablert ut over et lokalt kontors ressurser.

Anbefalinger

Lokal prioritering:

- Verdifullt materiale Koas/Logos bør utnyttes i tilsvarende prediktiv undersøkelse.

- WISC-R og etterhvert W-III- utstyr bør vurderes brukt med normjusterings-%.

Regional utvikling

- PPT-kontorer bør erkjenne egenansvar for utvikling av supplerende normgrunnlag, og be om sentrale vilkår for utveksling av testdata.

- Det bør samarbeides om utnytting av skolens normerte/nasjonaale prøver og utvikling av ferdighetstest for å underbygge kriteriet ”relativ retardasjon”.

- Innlede psykometrisk bruk av ”kalkulatorer” også i PPT, bl.a. for å predikere kriterier som ”enkeltvedtak” fra relevante testdata, i egnede utvalg av vanske-kategorier.

REFERANSER

Egeland, J. /Andreassen/ Sundberg/Stensli: ”Ny norsk Wisc-III: Fare for overdiagnostisering av språklige vansker?”. TNPF 43/2006 s 702-707.

Fallmyr, Øyvind: ”Kan vi leve med manglende norsk normering på WISC, WAIS og WPPSI?”. TNPF 43/5 2006

Fylling, Ingrid / Handegård, Tina:”Kompetanse i krysspress? Kartlegging og |evaluering av PPT”. Nordlandsforskning 5/2009 s 99

Meyenberg, Sylvia mfl: Håndbok for PPT. AU for PPT i Oslo/Akershus 2005. Skolepsykologi 6/89.

Nilsen, Dag Øyvind Engen: ”WISC-III og normer” TNPF 42/6 2005

Schiøll, Stein: ”Fra praksisfeltet: WISC ved Nesodden PPT”. 20s + vedlegg. Dertil ”Etterundersøkelse av PPTs testsamsvar med karakterer til jul i 8.kl” 5 s. Nesodden PPT april 2009.

Schiøll, Stein: ”Tester og testbruk i PPT”. 43 s + vedlegg. Rapport til Forum 2010. Skal bli tilgjengelig på Skolepsykologi’s hjemmeside. Utdragsartikkel i Skolepsykologi.

Strand, Nina: ”WISC-III skaper uro”. Tidsskrift for Norsk Psykologforening (TNPF) 42/6 2005. Jf. tilsvarskommentar fra Assessio.

Sundberg, H / Egeland/Andreassen/Stensli: ”Sammenligning av Wisc-R og Wisc-III i et klinisk utvalg-”. TNPF 43/ 2006 s. 476-481

Undheim, Johan Olav ”WISC-R Håndbok”. Norsk Psykologforening 1978

WISC-III Manual. Svensk utgave 1999

******