De betrouwbaarheid en validiteit van leerlingpercepties van leskwaliteit

De betrouwbaarheid en validiteit van leerlingpercepties van leskwaliteit

Korte samenvatting:

Het doel van dit symposium is om de validiteit en betrouwbaarheid van leerlingpercepties van leskwaliteit vanuit verschillende invalshoeken te bespreken om zo bij te dragen aan breder inzicht in de wetenschappelijke en praktische relevantie van leerlingpercepties. Het symposium bestaat uit drie bijdragen. De eerste studie bestudeert in hoeverre leerlingpercepties van de kwaliteit van lesgeven op gelijkwaardige wijze gebruikt kunnen worden in verschillende landen. De tweede studie geeft inzicht in de betrouwbaarheid en validiteit van leerlingpercepties van leskwaliteit, verzameld door de Impact! tool. De derde studie gaat in op de vergelijkbaarheid van leerlingpercepties met zelfpercepties van docenten en lesobservaties door externen voor het bestuderen van docent-leerling interacties.

Lopende tekst:

Doelstelling en wetenschappelijke betekenis van de sessie

Het professionaliseren van docenten is een belangrijk onderdeel van onderwijsbeleid. Daarvoor is het van belang om docentkwaliteit goed te kunnen meten. In het onderwijs wordt dit veelal gedaan door lesobservaties. Ondanks dat onderzoek heeft laten zien dat met een gevalideerd instrument een betrouwbaar beeld van de docentkwaliteit kan worden verkregen (Grift, 2017; Lasagabaster & Sierra, 2011), zijn lesobservaties inefficiënt en tijdrovend voor scholen. Er zijn namelijk meerdere lesobservaties per docent nodig en deze observaties zouden beoordeeld moeten worden door meerdere getrainde observatoren. Een andere manier om docentkwaliteit te meten is door gebruik te maken van leerlingpercepties van leskwaliteit (Peterson et al., 2000; Wubbels et al., 2006). Vergeleken met lesobservaties van externe observatoren, is het aantal observaties (i.e., leerlingen in de klas) hoog en de vragenlijst kan gemakkelijk herhaald afgenomen worden, omdat de docent de klas vaak meerdere keren per week ziet. Leerlingen geven bovendien een ander perspectief op de les dan externe observatoren, omdat zij hun docent vaker zien.

Echter, de betrouwbaarheid en validiteit van leerlingpercepties van leskwaliteit wordt nog vaak in twijfel getrokken en daarom is het gebruik hiervan in de onderwijspraktijk nog beperkt(De Jong & Westerhof, 2001). Inzicht in de betrouwbaarheid en validiteit van leerlingpercepties van leskwaliteit en de relevantie ervan voor de praktijk kan bijdragen aan het wetenschappelijk debat over dit onderwerp. Ook kan dit het effectief gebruik van leerlingfeedback in het onderwijs bevorderen. In dit symposium worden drie studies gepresenteerd die ingaan op de betrouwbaarheid en validiteit van leerlingpercepties van leskwaliteit om zo bij te dragen aan breder inzicht in de wetenschappelijke en praktische relevantie van leerlingpercepties.

Overzicht van de presentaties

In de eerste presentatie zal een vergelijkend onderzoek naar leerlingpercepties van leskwaliteit in verschillende landen worden gepresenteerd. De “Mijn Leraar” vragenlijst is gebruikt voor het verzamelen van data in Indonesië, Nederland, Spanje, Zuid Afrika en Zuid-Korea. In de tweede presentatie wordt onderzoek naar de betrouwbaarheid van leerlingpercepties van leskwaliteit, gemeten door de “Impact! tool”, gepresenteerd en wordt ingegaan op de construct validiteit van het instrument. De derde presentatie vergelijkt leerlingpercepties met de docent- en observatorenperceptie van de docent en kijkt in hoeverre de verschillende percepties van invloed zijn op de emoties van leerlingen en docenten. Hiervoor is de “Vragenlijst Interpersoonlijk Leraarsgedrag” (VIL; Wubbels et al., 1985) gebruikt. De uitkomsten en inzichten van deze studies zullen worden besproken en bediscussieerd.

De structuur van de sessie

Na een algemene introductie op het onderwerp door de voorzitter (Trynke Keuning; Universiteit Utrecht; ), zullen de drie onderzoeken in bovenstaande volgorde gepresenteerd worden. Na elke presentatie is kort de gelegenheid voor het stellen van verduidelijkingsvragen. Een presentatieronde duurt maximaal 20 minuten. De referent (Perry den Brok; Wageningen Universiteit;perry.denbrok@wur.nl) geeft vervolgens in 10 minuten een reflectie op de drie presentaties en opent de discussie met de aanwezigen door het stellen van kritische vragen. De discussie wordt geleid door de voorzitter. In totaal duurt het symposium 90 minuten.

Individuele bijdrage 1 (symposium):

De validiteit van leerlingpercepties voor internationaal vergelijkend onderzoek naar de effectiviteit van lesgeven

Rikkert M. van der Lans, Ridwan Maulana, Michelle Helms-Lorenz, Carmen-María Fernández-García, Seyeoung Chun, Thelma de Jager, Yulia Irnidayanti, Mercedes Inda-Caro, Okhwa Lee, Thys Coetzee, Nurul Fadhilah, & Peter Moorer

Inleiding

Uitkomsten van leerlingvragenlijsten zijn vanuit beleidsmatig perspectief waardevol op een micro-(directe feedback aan leraren), macro-(schoolbrede ontwikkelingen in effectiviteit van lesgeven) en meso-niveau (landelijke ontwikkelingen in effectiviteit van lesgeven). In deze studie wordt nagegaan in hoeverre leerlingpercepties van de effectiviteit van lesgeven vergelijkbaar zijn tussen landen die cultureel verschillen. De hoofdvraag van de studie is: In hoeverre geven leerlingen uit verschillende landen eenzelfde betekenis aan omschrijvingen van effectief leraarsgedrag?

Achtergrond informatie

Internationale vergelijkingen van leerlingpercepties van effectief leraarsgedrag vormen vanuit beleidsmatig oogpunt een interessante aanvulling op de bestaande PISA, PIRLS en TIMMS. Leerlingvragenlijsten zijn kosten-efficiënt en relatief gemakkelijk te distribueren, maar anders dan de PISA, TIMMS en PIRLS kunnen ze inzicht bieden in (de variatie van) effectief leraarsgedrag en daarmee meer richting geven aan landelijke interventies gericht op docentprofessionalisering. Tegelijk zou een internationale vergelijking de effectiviteit van de gebruikte interventies in perspectief kunnen plaatsen met die in andere landen.

Eerder onderzoek laat zien dat leerlingvragenlijsten betrouwbaar (bijv. Van der Lans & Maulana, 2018) en stabiel zijn (bijv. Marsh, 2007), maar deze resultaten betreffen allen steekproeven verzameld binnen één land. Zodoende kan op basis van deze studies niet worden uitgesloten dat vragenlijstuitkomsten beïnvloed worden door heersende culturele normen en waarden. Verschillen in normen en waarden tussen landen zouden ertoe kunnen leiden dat leerlingen hetzelfde leraarsgedrag anders waarderen wat een directe vergelijking tussen landen zou compliceren.

Methode

Steekproef.De data is afkomstig uit vijf verschillende landen, namelijk: Indonesië, Nederland, Spanje, Zuid Afrika en Zuid-Korea. Tabel 1 geeft enkele beschrijvende statistieken van de steekproef uit ieder land.

Instrument. Leerlingen hebben hun leraar gescoord op de “Mijn Leraar” vragenlijst. De vragenlijst bestaat uit 41 items die zijn gescoord op een 4-puntsschaal. Voor het vertalen is een vertaling-terugvertalingsprocedure gebruikt.

Er wordt verondersteld dat effectief leraarsgedrag kan worden geschaald op een ééndimensionele cumulatieve dimensie (Maulana e.a. 2015; van der Lans e.a. 2015). De fit met de ééndimensionele dimensie is hier opnieuw vastgesteld aan de hand van infit en outfit statstistics (Bond & Fox, 2007). Op basis van deze fittoetsen is besloten om zes items niet mee te nemen in de uiteindelijke analyse.

Analyse. Er worden twee varianten van differential item functioning (DIF) getoetst. Non-uniforme DIF (NU-DIF) gaat na of items in ieder land een gelijkwaardige fit hebben met de ééndimensionele cumulatieve dimensie. Uniforme DIF (U-DIF) vergelijkt of items in verschillende landen exact dezelfde positie hebben op de cumulatieve dimensie. Beide analyses zijn uitgevoerd in R met het package Lordiff.

Resultaten en conclusies

Geen van de items heeft NU-DIF, maar vrijwel alle items hebben U-DIF (zie tabel 2). Dit betekent dat items in alle landen een gelijkwaardige fit hebben met de ééndimensionele cumulatieve dimensie van effectief leraarsgedrag, maar dat leerlingen uit de verschillende landen een ander gewicht toekennen aan hetzelfde item.

Praktische en maatschappelijk relevantie

De resultaten sluiten niet uit dat leerlingpercepties kunnen worden gebruikt voor internationale vergelijkingen van effectief leraarsgedrag, maar een valide vergelijking vereist wel correcties op de verschillen in gewicht. bijdrage 2 (symposium):

De betrouwbaarheid van leerlingpercepties van leskwaliteit, gemeten met de Impact! tool

Inleiding en onderzoeksdoel

Het verzamelen van leerlingpercepties van leskwaliteit is een efficiënte manier om een betrouwbaar beeld van de kwaliteit van een docent krijgen. Daarom is de Impact! tool ontwikkeld: een digitaal feedbacksysteem waarmee leerlingen op hun smartphone, iPad of laptop feedback kunnen geven aan de docent over de les die net geweest is. In dit onderzoek is onderzocht wat de construct validiteit van het Impact! instrument is en in hoeverre leerlingpercepties (gemeten door de Impact! tool) betrouwbaar zijn.

Theorie en onderzoeksvragen

De mate waarin een vragenlijst meet wat beweerd wordt, geeft antwoord op de vraag naar de construct validiteit(Cronbach & Meehl, 1955; Messick, 1995). Met andere woorden, door de construct validiteit te onderzoeken wordt onderzocht of de vragenlijst het te meten construct weerspiegelt. De betrouwbaarheid van een instrument wordt bepaald door de mate waarin deze onder vergelijkbare omstandigheden vergelijkbare resultaten oplevert (Baarda & De Goede, 2006; Fraenkel, Hyun, & Wallen, 2012). Dit kan bepaald worden door verschillende soorten betrouwbaarheidscoëfficiënten met waarden tussen 0,00 (veel fout) en 1,00 (geen fout). De volgende vragen zijn beantwoord in dit onderzoek:Wat is de construct validiteit van het Impact! instrument? Wat is de betrouwbaarheid van leerlingpercepties van leskwaliteit, gemeten door het Impact! instrument?

Methode

In een periode van vier maanden hebben 26 wiskundedocenten de Impact! tool in hun HAVO-3 klas gebruikt. Hiermee zijn leerlingpercepties van leskwaliteit verzameld bij verschillende docenten op verschillende tijdsmomenten (3 tot 17). De analyses van de data zijn uitgevoerd in een Bayesiaans raamwerk, waarin de docentkwaliteit geschat is aan de hand van een Item Response Theory (IRT)-model en Generaliseerbaarheidstheorie model (GT-model). Het IRT-model bevatte een multi-level design omdat leerlingen genest zijn binnen docenten en docentkwaliteit gemeten is op verschillende momenten. De combinatie met een GT- model maakt het mogelijk variantiecomponenten (leerlingen, docenten, tijdstippen, en hun interacties) gelijktijdig mee te schatten. Daarnaast is door een Decision study (D-studie) onderzocht wat er met de betrouwbaarheid van de metingen gebeurd bij meer of minder meetmomenten.

Resultaten en conclusies

De analyses lieten zien dat de construct validiteit van het Impact! instrument goed is. De absolute verschillen tussen de geschatte data en de geobserveerde data is minder dan 0.1. De analyses lieten daarnaast zien dat de betrouwbaarheid van het Impact! instrument hoog is (0.895). De meeste variantie in scores wordt verklaard door de verschillende docenten (35,6%), gevolgd door de verschillende leerlingen (24,4%). De D-studie liet zien dat, om hoog betrouwbare scores te behalen (> .8) voldoende meetmomenten nodig zijn, in ieder geval drie (zie figuur 1). Hoe meer meetmomenten, hoe minder effect op de betrouwbaarheid (de grafiek vlakt af). Bovendien heeft het aantal studenten geen invloed op de betrouwbaarheid van de scores over de kwaliteit van het onderwijs, aangezien de drie lijnen bijna parallel lopen.

Wetenschappelijke en praktische betekenis van de bijdrage

In het onderwijs is nog weinig onderzoek gedaan naar de betrouwbaarheid van leerlingpercepties van leskwaliteit en de psychometrische kwaliteit van de instrumenten, terwijl het een veelbelovende manier is om docentkwaliteit te meten.

 

Individuele bijdrage 3 (symposium):

Leerling-, docent- en observator-perceptie van docent-leerling interactie

Inleiding, onderzoeksdoel en context

De interactie tussen docent en leerlingen is van belang voor emotionele uitkomsten van zowel docent als leerlingen (Becker et al., 2014; Mainhard et al., 2018; Spilt et al., 2011). Voorgaand onderzoek heeft voor het onderzoeken van deze associaties vooral gebruik gemaakt van zelfrapportage. De huidige studie vergelijkt leerlingpercepties van docent-leerling interactie met de zelfperceptie van docent en observatie van de docent-leerling interactie door externe observatoren.

Theoretisch kader

Het onderzoeken van associaties met zelfrapportages is vatbaar voor de ‘common rater bias’ (Podsakoff et al., 2003; Wettstein et al., 2018). Dit houdt in dat gevonden associaties tussen docent-leerling interactie en emoties van docenten en leerlingen het gevolg zouden kunnen zijn van het feit dat beide constructen zijn gemeten met vragenlijsten, ingevuld door dezelfde persoon. Het gebruik van externe observatoren van docent-leerling interactie geeft, naast een meer objectief perspectief, ook de mogelijkheid om te kijken naar veranderingen gedurende een les (Sadler et al., 2015).

Onderzoeksvraag

De vragen die worden beantwoord in dit onderzoek zijn: 1) Hoe hangen docent-, leerling- en observator-percepties van docent-leerling interactie met elkaar samen, en 2) in hoeverre zijn de verschillende percepties van invloed op de emoties van leerlingen en docenten?

Methode van onderzoek

Tachtig docenten in het voortgezet onderwijs en hun leerlingen hebben vragen beantwoord over hun perceptie van de docent-leerling interactie (Vragenlijst Interpersoonlijk Leraarsgedrag; Wubbels et al., 1985) en de ervaren emoties tijdens een les (gebaseerd op de Achievement Emotions Questionnaire; Pekrun et al., 2011). Het interpersoonlijk gedrag van zowel docenten en leerlingen (i.e., Agency/dominantie en Communion/vriendelijkheid; zie Figuur 2) tijdens de betreffende les is op basis van een video-opname gecodeerd door drie getrainde observatoren (Sadler et al., 2015).

Resultaten en onderbouwde conclusies

De docent-, leerling- en observator-percepties kwamen overeen voor dominantie, maar de docent-perceptie van vriendelijkheid kwam niet overeen met de observator-perceptie (zie Tabel 3). Docenten rapporteerden meer positieve emoties in lessen waarin meer dominantie was geobserveerd en ook leerlingen keken positiever terug op lessen waarin de docent dominanter werd in situaties waar de leerlingen meer dominantie en vriendelijkheid lieten zien. Docenten ervaarden negatieve emoties als zij onvriendelijk reageerden op dominant en vriendelijk gedrag van leerlingen, en ook leerlingen rapporteerden minder positieve emoties in lessen met meer onvriendelijk docentgedrag. Er was een sterke samenhang tussen zelfgerapporteerde percepties van de interactie en ervaren emoties, maar dit kan wellicht verklaard worden vanuit de ‘common rater bias’ (zie Tabel 4).

Wetenschappelijke en praktische betekenis van de bijdrage

Het is dus belangrijk om verschillende perspectieven (docent, leerling, observator) mee te nemen wanneer wordt gekeken naar de invloed van docent-leerling interactie op emoties van leerlingen en docenten. Daarnaast biedt het gebruik van video-observatie de mogelijkheid om op een preciezer niveau te kijken naar de docent-leerling interactie. Deze observatie-methode kan worden gebruikt om docenten feedback te geven op hun interactie met leerlingen en geeft specifieke aanknopingspunten voor verbetering.

 

Geen reactie's

Sorry, het is niet mogelijk om te reageren.