Web viewDeze analyse gaat over de validiteit en ... (Berkel & Bax, 2006). 1.2 Analyse van ... de...

12
Toetsanalyse Economie in Bedrijf 2 (ILEEIB20) van de toets gehouden op 14-04-2015. De toets Dit vak wordt in het eerste leerjaar gegeven van de opleiding Logistiek en Economie. Het tentamen bestaat uit vier opgaven. De eerste opgave bestaat uit twaalf meerkeuze vragen waarmee 10 punten kunnen worden verdiend. Opgave twee, drie en vier zijn open vragen, waar respectievelijk 22, 11 en 7 punten kunnen worden verdiend. Dit levert uiteindelijk 50 punten op in totaal. De toetsduur is 90 minuten. De eindscores die verzameld zijn in de data set, geven alleen de totaal scores weer op de vier opgaven. De cesuur is absoluut gesteld op 25 punten: Het eindcijfer bestaat uit een schriftelijk tentamen (weging 80%) en een bedrijfsopdracht (weging 20%). Dit gewogen gemiddelde cijfer moet voldoende (5,5) zijn; de beide onderdelen zullen ten minste afgesloten moeten zijn met een niet afgeronde cijfer van 5,0 volgens de Modulewijzer van ILEEIB 20 (Modulewijzer ILEEIB20 2014-2015). Nieuw in deze toets is dat formules van kengetallen gegeven zijn via een bijgesloten formuleblad. Dit kan betekenen dat voorheen Kennis gestuurde vragen over kengetallen, meer gericht worden op Toepassing. Omdat de reproductie van de kengetallen niet meer afgetoetst dient te worden doordat ze al gegeven zijn in een formuleblad van de toets. Deze analyse gaat over de validiteit en betrouwbaarheid van de toets Economie in Bedrijf 2 die is afgenomen op 14 april 2015. Voor beide onderwerpen wordt eerst stilgestaan bij de theorie om vervolgens te toets te evalueren aan de hand van de theorie. Daarnaast wordt kort gekeken naar de analyse van de toetscommissie. 1.1: Validiteit van de toets De toets dient valide te zijn, definitie hiervoor is: “de mate waarin de toets meet wat het beoogt te meten.” (Dousma & Horsten, 1989). Validiteit van een toets is op verschillende manieren te analyseren. De meest hanteerbare varianten die mogelijk zijn: content validity (inhoudsvaliditeit), face validity (validiteit op zicht), begripsvaliditeit en convergerende/discriminerende validiteit. In deze analyse zal ik de inhoudsvaliditeit analyseren. Deze is via de toetsmatrijs goed te analyseren omdat er met inhoudvaliditeit gekeken wordt naar de doelen die gesteld zijn voor

Transcript of Web viewDeze analyse gaat over de validiteit en ... (Berkel & Bax, 2006). 1.2 Analyse van ... de...

Page 1: Web viewDeze analyse gaat over de validiteit en ... (Berkel & Bax, 2006). 1.2 Analyse van ... de betrouwbaarheid acceptabel is als α≥0.7. (Berkel,

Toetsanalyse Economie in Bedrijf 2 (ILEEIB20) van de toets gehouden op 14-04-2015.De toetsDit vak wordt in het eerste leerjaar gegeven van de opleiding Logistiek en Economie. Het tentamen bestaat uit vier opgaven. De eerste opgave bestaat uit twaalf meerkeuze vragen waarmee 10 punten kunnen worden verdiend. Opgave twee, drie en vier zijn open vragen, waar respectievelijk 22, 11 en 7 punten kunnen worden verdiend. Dit levert uiteindelijk 50 punten op in totaal. De toetsduur is 90 minuten. De eindscores die verzameld zijn in de data set, geven alleen de totaal scores weer op de vier opgaven.

De cesuur is absoluut gesteld op 25 punten: Het eindcijfer bestaat uit een schriftelijk tentamen (weging 80%) en een bedrijfsopdracht (weging 20%). Dit gewogen gemiddelde cijfer moet voldoende (5,5) zijn; de beide onderdelen zullen ten minste afgesloten moeten zijn met een niet afgeronde cijfer van 5,0 volgens de Modulewijzer van ILEEIB 20 (Modulewijzer ILEEIB20 2014-2015).

Nieuw in deze toets is dat formules van kengetallen gegeven zijn via een bijgesloten formuleblad. Dit kan betekenen dat voorheen Kennis gestuurde vragen over kengetallen, meer gericht worden op Toepassing. Omdat de reproductie van de kengetallen niet meer afgetoetst dient te worden doordat ze al gegeven zijn in een formuleblad van de toets.

Deze analyse gaat over de validiteit en betrouwbaarheid van de toets Economie in Bedrijf 2 die is afgenomen op 14 april 2015. Voor beide onderwerpen wordt eerst stilgestaan bij de theorie om vervolgens te toets te evalueren aan de hand van de theorie. Daarnaast wordt kort gekeken naar de analyse van de toetscommissie.

1.1: Validiteit van de toetsDe toets dient valide te zijn, definitie hiervoor is: “de mate waarin de toets meet wat het beoogt te meten.” (Dousma & Horsten, 1989). Validiteit van een toets is op verschillende manieren te analyseren. De meest hanteerbare varianten die mogelijk zijn: content validity (inhoudsvaliditeit), face validity (validiteit op zicht), begripsvaliditeit en convergerende/discriminerende validiteit. In deze analyse zal ik de inhoudsvaliditeit analyseren. Deze is via de toetsmatrijs goed te analyseren omdat er met inhoudvaliditeit gekeken wordt naar de doelen die gesteld zijn voor het vak, vergeleken met het cognitieve niveau dat afgetoetst dient te worden bij de studenten (Berkel & Bax, 2006).

1.2 Analyse van InhoudsvaliditeitDe toetsmatrijs vanuit de modulewijzer is hieronder vergeleken met de afgenomen toets. Zwart = volgens toetsmatrijs modulewijzer, rood= actueel verwerkt in de toets dd 14-04-2015.

Taxonomie A Kennis

B Begrip

C Toepassen

D Probleemoplossen Cesuur

Punten totaalschriftelijk tentamen

Leerdoelen of beroepsproductenVerschillende vormen van activa en vermogen kennen en aan de hand hiervan de bedrijfsbalans kunnen

5 4 6 3 5 6 16 13

Page 2: Web viewDeze analyse gaat over de validiteit en ... (Berkel & Bax, 2006). 1.2 Analyse van ... de betrouwbaarheid acceptabel is als α≥0.7. (Berkel,

analyseren en opstellenFinanciële besturing van een onderneming kunnen analyseren aan de hand van kengetallen voor liquiditeit, rentabiliteit, solvabiliteit

8 4 8 9 8 8(+ opdrachtbedrijfsanalyse)

opdracht bedrijfsanalyse

24 21

Financiële karakteristieken en de balans van een onderneming in samenhang kunnen beoordelen

2 3opdracht bedrijfs 3analyse

opdracht bedrijfsanalyse

2 6

Basisgrippen van werkkapitaalbeheer en supply chain finance kennen en deze kunnen toepassen in eenvoudige logistieke bedrijfssituaties

3 6 3 4 2 2 8 12

Punten totaal 16 14 19 19 15 19 25 50 =52-2=50

bron: Modulewijzer ILEEIB20, Logistiek en Economie 2014-2015 p.10

Twee opvallende verschillen:

1. Door de toetsmatrijs naast de toets te leggen zijn er enige verschillen te zien. Hieruit blijkt dat er 4 punten teveel aan toepassings-vragen in de toets zitten en 2 punten te weinig aan kennis-vragen.

2. Ook in de leerdoelen is er een verbetering mogelijk: leerdoel 1 en 2 missen beide 3 punten en leerdoelen 3 en 4 hebben beide 4 punten teveel.

Voor verschil 1 zijn mogelijkheden om binnen de bestaande leerdoelen een aantal vragen te switchen van toepassing naar kennis, bijvoorbeeld:

Binnen leerdoel 1 ligt er één punt teveel bij toepassing in plaats van kennis. In de toets had bijvoorbeeld Opgave 4 A ( 1 punt) een kennis vraag kunnen zijn in plaats van een toepassing door te vragen om de debt-ratio in een paar korte zinnen uit te leggen en waarvoor deze ratio wordt gebruikt, in plaats van een berekening te vragen.

Voor verschil 2 zijn er binnen de huidige leerdoelen 1 en 2 te weinig vragen gesteld in de toets vergeleken met de toetsmatrijs. Als ik kijk naar de verantwoording van de leerdoelen op pagina 9 van de modulewijzer, dan lijken een aantal onderwerpen in de lesstof in leerdoel 3 en 4 groter te zijn dan wat de toetsmatrijs aanduidt in hoeveelheid punten. Bekijk ik deze onderwerpen in de toets dan zijn deze overduidelijk aanwezig en hebben ook in de lesactiviteiten de nodige aandacht gehad. Hieruit blijkt dat misschien de toetsmatrijs aangepast dient te worden naar meer gewicht in leerdoel 3 en 4.

Er zijn een aantal wijzigingen in de lesactiviteiten geweest dit jaar waardoor er meer accent is komen te liggen op leerdoel 4. Leerdoel 3 heeft veel overeenkomsten met leerdoel 2. Waar leerdoel 2 met name uitlegt hoe kengetallen werken, gaat leerdoel 3 over de beoordeling van kengetallen. Hier kunnen dus verschillen van interpretatie in zitten.

Daarnaast is door het toevoegen van het formule blad aan de toets er een mogelijkheid om meer accent te gaan leggen op begrip en toepassing in plaats van kennis. De kerncompetenties die in de

Page 3: Web viewDeze analyse gaat over de validiteit en ... (Berkel & Bax, 2006). 1.2 Analyse van ... de betrouwbaarheid acceptabel is als α≥0.7. (Berkel,

verantwoording van de modulewijzer staan, zijn gericht op analyseren, intrepreteren en adviseren. Dit zou dus veel meer aansluiten met begrip, toepassing en beoordeling.

2.1 : Betrouwbaarheid van het tentamen en de scoresDe definitie van betrouwbaarheid is: “de mate waarin de toets consistent meet, ongeacht het doel” (Dousma & Horsten, 1989). Met andere woorden als dezelfde toets onder gelijke condities wordt afgenomen dienen er dezelfde toetsscores te ontstaan.

De betrouwbaarheid van de toets met alleen open vragen is te meten met de Cronbach’s Alpha (α). Waar de toetsen die summatief van aard zijn en waar gecompenseerd kan worden met een alternatief, de betrouwbaarheid acceptabel is als α≥0.7. (Berkel, 1999). De betrouwbaarheid van een toets wordt groter naarmate er meer vragen zijn (Berkel & Bax, 2006).

Omdat het tentamen open vragen heeft, is er ook een invloed op de betrouwbaarheid die te maken heeft met de interpretatie van de verschillende beoordelaars (inter-beoordelaars betrouwbaarheid). De vraag is of er consistent is nagekeken door de beoordelaars, en of hierdoor grote verschillen ontstaan. Het kan niet zo zijn dat een antwoord van een student anders scoort bij beoordelaar A of B. Hoe meer de beoordelaars op één lijn zitten met de beoordelingen, hoe betrouwbaarder de scores van de toets. Een goed antwoordmodel kan hierbij helpen (Berkel & Bax, 2006).

2.2 Analyse betrouwbaarheid Tentamen EIB20. De basis van de komende analyses zijn de scores die zijn verzameld na het tentamen Economie in Bedrijf 2. In Output 1 van Minitab is onder andere de berekende gemiddelde en standaarddeviatie van de score per opgave te zien en de Cronbach’s Alpha. Grafiek 1 hieronder geeft de verdeling weer van de tentamencijfers en de tabel van de totaal eindscores van het tentamen Economie in Bedrijf 2 gehouden op 14-04-2015. Van in total 93 studenten zijn de scores hieronder te vinden.

Het is niet een symmetrische uitkomst, de uitkomsten zijn niet volledig normaal verdeeld: dit betekent dat we geen gebruik kunnen maken van de empirische regel dat 68% van de studenten populatie binnen de range van 1 standaarddeviatie zit van het gemiddelde. We zullen uit moeten gaan van Chebyshev’s regel dat ¾ van de populatie zich zal bevinden binnen 2 standaarddeviaties van het gemiddelde. (Mc Clave, Benson & Sincich, 1998). We zullen voorzichtig moeten zijn met onze verdere conclusies omdat de scores niet volledig normaal verdeeld zijn.

Daarnaast is in de tabel een opsplitsing te zien naar twee beoordelaars: Ten Kate en Moolenburgh. Deze gegevens zullen we bekijken in het licht van de inter-beoordelaars betrouwbaarheid.

Output 1: Item and Total Statistics Sub opgaven tentamen (Program used: Minitab 16)

TotalVariable Count Mean StDevopgave 1 93 6,570 1,930opgave 2 93 12,538 3,992opgave 3 93 6,796 2,713opgave 4 93 4,059 1,871Total 93 29,962 7,879

Cronbach's Alpha = 0,6994

Page 4: Web viewDeze analyse gaat over de validiteit en ... (Berkel & Bax, 2006). 1.2 Analyse van ... de betrouwbaarheid acceptabel is als α≥0.7. (Berkel,

Grafiek 1: overzicht tentamen cijfers in een frequentietabel:ILEEIB20 14-04-2015Tabel 1N= 93

Opgave 1

Opgave 2

Opgave 3

Opgave 4 Totaal Cijfer

GEM + 1 STDV

GEM - 1 STDV

Max te behalen score 10 22 11 7 50 10gemiddelde score 7 13 7 4 30 5,99standaarddeviatie 1,92 3,97 2,70 1,86 7,84 1,57

7,57 4,43gem ten kate 7 12 7 4 30 5,96stdv ten kate 1,77 3,88 2,56 1,99 7,55 1,51

7,47 4,46gem moolenburgh 6 13 7 5 30 6,04stdv moolenburgh 2,10 4,11 2,91 1,51 8,27 1,65

7,69 4,38Tabel 1: Overzicht Gemiddelde en standaarddeviatie tentamen Economie in Bedrijf 2

2.3 Cronbach’s AlphaDe Cronbach’s Alpha van de toets: α=0,6994. Volgens de theorie behandeld in deel 2.1 betekent de uitkomst van de Alpha dat de toets op het randje zit van een betrouwbare toets: we kunnen met enige voorzichtigheid stellen dat het een middelmatige toets is. Daarnaast, zoals eerder opgemerkt, is dit niet de enige toets, want de bedrijfsopdracht telt ook voor 20% mee, waardoor er een compenserende factor bestaat. Wel dienen we hier enige voorzichtigheid te betrachten, gezien het feit dat we alleen naar de totaal scores van de vier opgaven hebben gekeken en niet naar de score per deelvraag. Hoe meer vragen hoe hoger de betrouwbaarheid van de toets. Om met meer zekerheid te zeggen dat de toets betrouwbaar is zou het handiger zijn geweest om de score per deelvraag te analyseren. Daargelaten dat opgave 1 van de toets bestaat uit gesloten vragen waar in

Page 5: Web viewDeze analyse gaat over de validiteit en ... (Berkel & Bax, 2006). 1.2 Analyse van ... de betrouwbaarheid acceptabel is als α≥0.7. (Berkel,

totaal 10 punten mee te verdienen waren en de rest open vragen zijn. We hadden dus ook nog een aparte analyse kunnen maken van opgave 1.

Leerpunt is hier dat de betrouwbaarheid zeer afhangt van de hoeveelheid vragen die wordt gesteld: de data verzameling per deelvraag had meer opgeleverd dan alleen data verzameling per hoofdvraag en misschien de betrouwbaarheid vergroot. Nu moeten we stellen met voorzichtigheid dat er enige mate van consitentie te vinden is in de scores.

De toets betrouwbaarheid is afhankelijk van een aantal factoren (Berkel, 1999):

1. Lengte van de toets: hoe langer de toets, hoe hoger de betrouwbaarheid: in dit geval bestaat de toets in totaal uit 12 meerkeuze vragen en 19 open vragen. Dus 31 vragen in totaal. Met behulp van de formule van Spearman-Brown zou de gewenste betrouwbaarheid gemeten kunnen worden. Hiermee wordt een factor berekend aan de hand van de huidige en gewenste α. De factor vermenigvuldigd met het huidige aantal vragen geeft het gewenst aantal vragen weer. Helaas beschik ik alleen over de α van de vier hoofd opgaven en niet van de deelvragen. Wel vermoed ik dat 31 vragen voldoende zouden kunnen zijn om een juist beeld te krijgen met betrekking tot betrouwbaarheid.

2. Homogeniteit van de toets: meer vragen over hetzelfde onderwerp verhoogt de betrouwbaarheid. Bij deze toets zijn is het aantal vragen over leerdoel 1 t/m 4 als volgt respectievelijk verdeeld: 8, 12, 4, 7. Hier zit dus verschil in met name in leerdoel 3. De vraag is dus hoe betrouwbaar de uitkomsten zijn op de vragen die gerelateerd zijn aan leerdoel 3. Er telt een opdracht mee in het eindcijfer van het vak voor 20%: in deze opdracht wordt er meer getoetst op leerdoel 3 in verband met toepassing en probleem-oplossend vermogen. Dus als de toets alleen van het eindcijfer deel uit zou maken dan kunnen we opmaken dat de toetsing niet goed verdeeld is geweest. In dit geval blijkt dat er nog een deelopdracht is die wel leerdoel 3 beter aftoetst. Dus het eindcijfer van het vak zou de leerdoelen beter moeten benaderen dan alleen het toetscijfer.

3. Toetsen met veel vragen met een gemiddelde moeilijkheid zijn betrouwbaarder dan een hoge moeilijkheid of makkelijke vragen. Dit heb ik niet onderzocht, maar ik durf wel te stellen dat er genoeg variatie is in de vragen die gesteld worden: er zijn voldoende vragen per cognitief niveau aanwezig voor Kennis, Begrip en Toepassen. Een eventuele verdere stap die genomen had kunnen worden om de moeilijkheid te bepalen is de p-waarde per vraag te berekenen. De p-waarde = score per student op de vraag /aantal toets deelnemers * de maximale te behalen score per open vraag. Een extreem hoge of extreem lage p-waarde kan betekenen dat de vraag makkelijk of moeilijk was. Wel mogen er makkelijke en moeilijke vragen zijn in de toets, maar dit dient wel in balans te zijn.

4. Toetsen die met veel vragen discrimineren tussen hoogscoorders en laagscoorders zijn betrouwbaarder. Dit is niet onderzocht door mij. Wat mogelijk interessant is, is de score van hoogscoorders en laagscoores op de deelopdracht. Scoren de hoogscoorders ook goed op de deelopdracht? Als zij even hoog scoren dan lijkt het eindcijfer betrouwbaar; hetzelfde geldt ook voor laagscoorders.

5. Als toetsdeelnemers veel verschillen qua kennis wat betreft de te toetsen eindtermen, zal de toets een hogere betrouwbaarheid hebben. Ook hier zitten de verschillen in de cognitieve vaardigheden van de studenten. We hebben studenten op de opleiding met veel verschillende achtergronden: ik merk alleen al grote verschillen in de klassen waarin ik les heb gegeven. Een klas met overwegend MBO studenten heeft meer moeite met toepassing dan een klas met overwegend VWO studenten. De scores per klas verschillen ook op het eerste gezicht, dit heb ik niet verder onderzocht.

Page 6: Web viewDeze analyse gaat over de validiteit en ... (Berkel & Bax, 2006). 1.2 Analyse van ... de betrouwbaarheid acceptabel is als α≥0.7. (Berkel,

Een mogelijke optie is, als de onbetrouwbaarheid dusdanig groot is, is om de standaardmeetfout te berekenen en eventueel de scores aan te passen met deze meetfout. Een hoge onbetrouwbaarheid kan betekenen dat de toets-scores aangepast dienen te worden omdat de onbetrouwbaarheid niet ten nadele van de studenten mag vallen (Berkel, 1999).

2.3 Inter beoordelaars betrouwbaarheidWat een interessante factor is om te bekijken, is de beoordeling van de verschillende beoordelaars. Zoals opgemerkt in deel 2.1 is de consitentie van de beoordelaars van invloed op het eindcijfer van het tentamen. Het kalibreren tussen de beoordelaars en het hebben van een antwoordmodel waar weinig mogelijkheid is tot grote interpretatie verschillen, is handig om te gebruiken en vergroot de betrouwbaarheid.

In tabel 1 zijn de scores opgedeeld per beoordelaar. Grafiek 2 en 3 geven de verdeling weer tussen de twee beoordelaars Ten Kate en Moolenburgh. Hier blijken toch grote verschillen te zitten in de scores die weergegeven worden. Beide grafieken hebben afwijkingen ten opzichte van een normale verdeling. Het totaal beeld in grafiek 1 gaf hier al blijk van, omdat er geen normale verdeling te vinden is.

Wel opvallend is dat het gemiddelde ongeveer hetzelfde is en de standaardeviatie ook niet veel van elkaar afwijkt. Gemiddeld genomen hebben de studenten rond de 6 heeft gescoord, met een standaarddeviatie van ongeveer 1,5. Volgens Chebyshev’s regel zou ¾ van de populatie zich bevinden binnen 2 standaarddeviaties van het gemiddelde, dus tussen de score 3 en 9 voor deze toets. Als we naar grafiek 1 kijken dan is dit hoger dan ¾ , bijna 93% van de scores valt hier tussen.

Als de toets resultaten normaal verdeeld zouden zijn geweest dan had de empirische regel kunnen gelden dat ongeveer 68% zekerheid de studenten scoren binnen een range van 4,4 tot 7,6 (zie tabel 1). Als we dit tegen grafiek 1 aanhouden dan valt ongeveer 75%-76% binnen deze range voor beoordelaar Ten Kate. En 55% voor beoordelaar Moolenburgh. Deze afwijking is te groot om de empirische regel aan te houden.

Grafiek 2: Verdeling scores ten Kate

Page 7: Web viewDeze analyse gaat over de validiteit en ... (Berkel & Bax, 2006). 1.2 Analyse van ... de betrouwbaarheid acceptabel is als α≥0.7. (Berkel,

Grafiek 3: Verdeling scores Moolenburgh

Dat beoordelaars volledig met elkaar overeenstemmen is onmogelijk. Er zijn verschillende oorzaken te benoemen voor verschillen tussen beoordelaars (Berkel & Bax, 2006):

1. Intra beoordelings effect: opnieuw beoordelen op een ander tijdstip kan tot een ander oordeel leiden: oplossing zou kunnen zijn om alles zoveel mogelijk in één keer na te kijken of te reviewen. Dit is voor dit tentamen redelijk goed te realiseren: het aantal studenten speelt hierbij wel een rol in de hoeveelheid nakijk werk. Hoe meer studenten, hoe moeilijker het is om alles op één moment na te kijken. In dit geval had ik 57 tentamens: hierover heb ik een dag gedaan.

2. Inter-beoordelings effect: meerdere beoordelaars zorgt voor verschillen in beoordeling: een goed antwoordmodel kan helpen om de beoordelingen meer op één lijn te krijgen. Ook voor dit tentamen is een antwoordmodel gemaakt, waar redelijk goed in is aangegeven wanneer er een punt aftrek is op een antwoord.

3. Normverschuiving: naarmate het nakijken vordert kan een beoordelaar milder worden: daarom is het goed om nog eens naar de eerste tentamens te kijken, nadat alles is nagekeken. Bij dit tentamen heb ik ook weer terug gekeken naar de eerst nagekeken tentamens om te kijken of ik anders dacht over wat ik had nagekeken.

4. Sequentie-effect: voorgaande beoordelingen zijn van invloed op de huidige beoordeling: een goede beoordeling na een aantal slechte beoordelingen kan als te goed worden beoordeeld en andersom. Dit effect kan minder worden door een beoordeling van antwoorden per vraag te doen in plaats van per student. Het is handig om een tentamen op te delen in stukken om het nakijken te vergemakkelijken. Bij dit tentamen heb ik op deze manier nagekeken.

5. Halo-effect: een beoordelaar kan de kennis over studenten mee laten spelen: dit is een lastig onderwerp, heb ik gemerkt, terwijl het eenvoudig op te lossen is door tentamens uit te wisselen tussen de beoordelaars. Het uitwisselen van tentamens is niet erg populair onder de docenten. Ik heb ook mijn eigen klassen nagekeken, terwijl ik zelf niet veel problemen zou hebben om een andere klas na te kijken. Hier zou misschien een verbetering te behalen zijn.

Page 8: Web viewDeze analyse gaat over de validiteit en ... (Berkel & Bax, 2006). 1.2 Analyse van ... de betrouwbaarheid acceptabel is als α≥0.7. (Berkel,

6. Signifisch-effect: het fenomeen strenge en soepele beoordelaars. De criteria die beoordelaars hanteren kan verschillen, ondanks een goed antwoordmodel of kalibratie-sessies tijdens het nakijken. Er is regelmatig een grijs gebied als er open vragen zijn: kalibreren en elkaar tijdens het nakijken op de hoogte houden van de intrepretatie van vragen kan zeer goed helpen.

3. Analyse van de toetscommissieDe toetscommissie heeft ook gekeken naar de toets van 14-0-2015. Dit document is te vinden onder document 3 van het overzicht in KBS 3. Zij merkten op dat een balans niet werd opgesteld terwijl dit in de leerdoelen vermeld stond. Dit is incorrect, opgave 4 is gegaan over het opstellen van een bedrijfsbalans. Tevens merkten zij op dat de normering niet van te voren bekend zou zijn, dit is inderdaad niet expliciet vermeld, maar wel via de toetsmatrijs te zien. Dit is zeker een verbeterpunt. En zij bevelen aan om meerdere versies van de meerkeuze vragen te hebben om af kijken te voorkomen. Dit is nog een goede aanbeveling waarover nagedacht kan worden. Zij zijn tevreden over de vraagstelling en de helderheid van de vragen.

4. Conclusies/Aanbevelingen/LeerpuntenHierbij kort de conclusies, aanbevelingen en leerpunten uit de Evaluatie van de toets.

De validiteit van de toets is met name vooraf goed te bepalen aan de hand van de toetsmatrijs. In geval van deze toets evaluatie zijn de volgende punten geconcludeerd of aan te bevelen of geleerd:

De toetsmatrijs dient aangepast te worden in gewicht met betrekking tot de leerdoelen. Leerdoel 3 en 4 hebben te weinig gewicht momenteel, terwijl de lesactiviteiten en de toetsing van meer gewicht uit gaan.

Er zijn ook enige verschillen te vinden in het cognitieve niveau dat is afgetoetst. Dit kan eenvoudig verholpen worden door de cognitieve niveau’s in de toets vooraf te vergelijken met de cognitieve niveau’s in de toetsmatrijs.

De betrouwbaarheid van de toets is belangrijk om te kijken of de toets meet wat het zou moeten meten. In geval van deze toets-evaluatie zijn de volgende punten geconcludeerd, aan te bevelen of geleerd over betrouwbaarheid:

Een compenserende factor zoals een opdracht dit deel uitmaakt van het eindcijfer verhoogt de betrouwbaarheid. Bij dit vak bestaat een extra opdracht wat de betrouwbaarheid verhoogt.

Er is met voorzichtigheid te concluderen dat de toets een middelmatige toets is met betrekking tot betrouwbaarheid. Leerpunt is hierbij dat een data verzameling per deelvraag meer oplevert dan alleen per hoofd opgave.

Hoe meer vragen de toets bevat, hoe hoger de betrouwbaarheid. In dit geval bestaat de toets uit 31 vragen, dit geeft een zekere mate van vermoeden dat dit de toets betrouwbaarheid zal vergroten.

In de toets zijn weinig vragen te vinden die leerdoel 3 af toetsen: dit wordt gecompenseerd door de bedrijfsopdracht. Hier zou vooraf iets beter naar gekeken kunnen worden.

Inter-beoordelaars betrouwbaarheid heeft verschillende oorzaken: een goed antwoordmodel is aanwezig voor de toets en er is gekalibreerd met andere docenten. Wel is het aan te bevelen om toetsen uit te wisselen om de objevtiviteit ten op zichte van de studenten te vergroten.

Bronnen

Page 9: Web viewDeze analyse gaat over de validiteit en ... (Berkel & Bax, 2006). 1.2 Analyse van ... de betrouwbaarheid acceptabel is als α≥0.7. (Berkel,

Berkel, H., van, (1999) Zicht op toetsen, Assen: Van Gorcum, 1e druk.

Berkel, H., van en Bax, A., (2006) Toetsen in het hoger onderwijs, Houten: Bohn Satleu Van Loghem, 2e druk.

Dousma, T. en Horsten A. (1989) Tentamineren, Groningen: Wolters-Noordhoff, 2e druk, p. 120

Mc Clave, J.T., Benson, P.G., & Sincich, T., (1998) Statistics for business and economics, London: Prentice Hall International Editions, 7e druk.

Modulewijzer ILEEIB20, Logistiek en Economie 2014-2015

Toetscommissie concept aanbevelingen op 17 april 2015