Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο...
Transcript of Η κλασική θεωρία των μετρήσεων—...3 δομήσει το ίδιο...
1
Θεωρίες για τις μετρήσεις στην Εκπαιδευτική Έρευνα
Θάνος Βέρδης
Η κλασική θεωρία των μετρήσεων
Η ΕΝΝΟΙΑ ΤΟΥ ΠΡΑΓΜΑΤΙΚΟΥ ΣΚΟΡ
Η πρώτη θεωρία με την οποία οι ψυχομέτρες προσέγγισαν τις λανθάνουσες μεταβλητές και
ιδιαίτερα την έννοια της νοημοσύνης ήταν η Θεωρία του Πραγματικού Σκορ ή αλλιώς η Κλασική
Θεωρία των μετρήσεων Η θεωρία αυτή αναπτύχθηκε ως εξέλιξη των πρώτων τεστ νοημοσύνης
Το laquoπραγματικό σκορraquo στην κλασική θεωρία των μετρήσεων είναι ένας αριθμός και
συγκεκριμένα ο αριθμητικός μέσος όρος των παρατηρούμενων σκορ που θα βρίσκαμε αν
επαναλαμβάναμε το ίδιο τεστ πολλές φορές στους ίδιους μαθητές Ας υποθέσουμε ότι κάναμε
στους μαθητές μας ένα τεστ ορθογραφικής ικανότητας Τη μία ημέρα μπορεί οι μαθητές μας να
ήταν κουρασμένοι και να μην απέδωσαν καλά ή αντίθετα την επόμενη ημέρα να απέδωσαν
καλά λόγω τύχης Έτσι αν το καθημερινό παρατηρούμενο σκορ του μαθητή είναι x και η
πραγματική γνώση ορθογραφίας είναι η καθημερινή διαφορά μεταξύ τους είναι Ε και ισχύει
ότι x e Η Κλασική Θεωρία των Τεστ είναι η θεωρία του αληθινού σκορ και των
σφαλμάτων Σύμφωνα με αυτήν κάθε μέτρηση στις επιστήμες του ανθρώπου εμπεριέχει ένα
αληθινό σκορ και ένα σφάλμα το οποίο μπορεί να είναι τυχαίο ή και συστηματικό Οι
στατιστικολόγοι έχουν αποδείξει ότι το σφάλμα είναι το ίδιο ανεξάρτητα αν εφαρμόζουμε το
τεστ μία φορά σε ένα πλήθος συμμετεχόντων ή πολλές φορές σε έναν και μόνο συμμετέχοντα
(βλ Allen MJ amp Yen 2002) Η διακύμανση των μετρήσεων είναι στην ουσία η διακύμανση του
πραγματικού σκορ συν τη διακύμανση του σφάλματος H αξιοπιστία ενός τεστ η οποία
συμβολίζεται με R αποδεικνύεται ότι είναι 1 var( ) var( )R E X και ότι var(T) var(X) R
Άρα αν γνωρίζουμε την αξιοπιστία και τη διακύμανση στο παρατηρούμενο σκορ μπορούμε να
προσεγγίσουμε το πραγματικό σκορ Όσο περισσότερα ερωτήματα έχει ένα τεστ τόσο
μεγαλώνει η αξιοπιστία του και τόσο περισσότερο προσεγγίζουμε το πραγματικό σκορ
2
Κάθε ερώτημα σε ένα τεστ
μπορεί σύμφωνα με την Κλασική
Θεωρία να θεωρηθεί εύκολο ή
δύσκολο ανάλογα με το πόσοι
συμμετέχοντες το απάντησαν
σωστά Με τον τρόπο αυτόν τα
ερωτήματα διαφέρουν αρχικά ως
προς τη χρησιμότητά τους Όπως
γίνεται εύκολα αντιληπτό αυτά
που απαντιούνται απrsquo όλους και
αυτά που δεν απαντώνται από
κανέναν δεν είναι πολύ χρήσιμα
για τους ερευνητές και θα
μπορούσαν να παραλειφτούν
από το τεστ Στην Κλασική
Θεωρία επίσης κάθε ερώτημα
χαρακτηρίζεται από τη
δυνατότητα διάκρισης που έχει
ανάλογα με το πόσο καλά
διαφοροποιεί τους ικανούς και
τους λιγότερο ικανούς μαθητές Τη δυνατότητα διάκρισης ενός ερωτήματος την υπολογίζουμε
στην Κλασική Θεωρία μέσω της διαφοράς στην παρατηρούμενη βαθμολογία που έχει τριάντα
περίπου τοις εκατό των υψηλότερων βαθμολογιών από το τριάντα τοις εκατό των χαμηλότερων
βαθμολογιών Αυτή η δυνατότητα διάκρισης συνδέεται με τον συντελεστή συσχέτισης κάθε
ερωτήματος με όλα τα άλλα ερωτήματα του τεστ Όσο πιο πολύ σχετίζεται ένα θέμα με όλα τα
άλλα θέματα τόσο μεγαλύτερη αξιοπιστία θεωρείται ότι διαθέτει ένα τεστ Μέσω της Κλασικής
Θεωρίας λοιπόν οι ερευνητές μπορούν να υπολογίσουν το πραγματικό σκορ καθώς και τις
ψυχομετρικές ιδιότητες κάθε μεμονωμένου ερωτήματος ενός τεστ
Η Κλασική Θεωρία όμως έχει ορισμένα προβλήματα Κατrsquo αρχάς προϋποθέτει ότι όλες οι
ερωτήσεις σε ένα τεστ μετρούν το πραγματικό σκορ με τον ίδιο ακριβώς τρόπο Για παράδειγμα
αν έχουμε ένα τεστ ή ένα ερωτηματολόγιο με 10 ερωτήσεις τύπου Likert ndashας υποθέσουμε 1=
laquoλίγοraquo 2= laquoαρκετάraquo 3= laquoπολύraquo και 4= laquoπάρα πολύraquo- υπάρχουν πάνω από ένα εκατομμύριο και
σαράντα οκτώ χιλιάδες πιθανοί συνδυασμοί απαντήσεων Μέσα σε αυτούς τους συνδυασμούς
υπάρχουν πάρα πολλοί συνδυασμοί με τους οποίους μπορεί να πάρει κανείς ένα σκορ ας πούμε
ίσο με 20 Η κλασική θεωρία υποστηρίζει ότι όλοι οι συνδυασμοί που δίνουν σκορ 20 έχουν την
ίδια ουσιαστική βαρύτητα στη μέτρηση της θεωρητικής κατασκευής Αυτό όμως δεν είναι
αλήθεια διότι κάθε ερώτημα συνδέεται με διαφορετικό τρόπο με τη θεωρητική κατασκευή που
θέλουμε να μετρήσουμε Άλλο είναι για παράδειγμα να απαντήσει κάποιος laquoπολύraquo στην
ερώτηση laquoκατά πόσο συμφωνείτε με την πρόσφατη θέσπιση του πολιτικού γάμουraquo και άλλο
είναι να απαντήσει κανείς laquoπολύraquo στην ερώτηση laquoπόσο πιθανό είναι να παντρευτείτε εσείς
προσωπικά με πολιτικό γάμοraquo Αν και θεωρητικά υπάρχει δυνατότητα και στατιστικοί τρόποι
ώστε τα ερωτήματα ενός τεστ να υπολογίζονται με διαφορετικούς συντελεστές βαρύτητας το
καθέναν (πχ μέσω Ανάλυσης Παραγόντων ή μέσω του συντελεστή συνάφειας ενός
ερωτήματος με τα υπόλοιπα ερωτήματα κλπ) η διαφοροποιημένη βαρύτητα δεν επηρεάζει
δομικά το τεστ Μπορεί για παράδειγμα μέσω διαφορετικών συντελεστών βαρύτητας να
πάρουμε διαφορετικά τελικά σκορ για δύο εξεταζόμενους που χωρίς τους συντελεστές θα είχαν
Εικόνα 1 Από το 1925 υπήρχε επίγνωση ότι τα ερωτήματα ενός τεστ
δεν έχουν τον ίδιο βαθμό δυσκολίας Ποσοστά ορθών
ανταποκρίσεων στις δοκιμασίες του τεστ των Binet-Simon σε παιδιά
διαφορετικών ηλικιών (πηγή Thurstone 1925 444) Οι αριθμοί πάνω
στις γραμμές αναφέρονται στον αριθμό των δοκιμασιών
3
δομήσει το ίδιο σκορ διαφορετικά αλλά η εσωτερική εγκυρότητα και αξιοπιστία των αρχικών
ερωτημάτων δεν θα άλλαζε
Ένα άλλο σοβαρό ζήτημα σε σχέση με την κλασική θεωρία είναι ότι οι κλίμακες μέτρησης της
θεωρητικής κατασκευής πρέπει να είναι τουλάχιστον ίσων διαστημάτων και όχι τακτικών τιμών
ή πολύ περισσότερο διχοτομικές (βλ Linacre 2005) Κλίμακες ίσων διαστημάτων είναι αυτές στις
οποίες η κλίμακα μέτρησης έχει ίσα διαστήματα από το ένα σημείο στο άλλο Κλίμακα ίσων
διαστημάτων είναι για παράδειγμα μια κλίμακα που θα μετρούσε την ηλικία ενός μαθητή σε
μήνες ή μια κλίμακα που θα μετρούσε τον αριθμό των λέξεων ενός κειμένου Κλίμακες τακτικών
τιμών ή άνισων διαστημάτων από την άλλη μεριά είναι κλίμακες στις οποίες τα διαστήματα από
μία τιμή στην άλλη δεν είναι ίσα Τέτοιες κλίμακες έχουμε για παράδειγμα κατά την καταγραφή
θετικής ή αρνητικής άποψης σε μια έρευνα διερεύνησης της κοινής γνώμης στις οποίες οι
πιθανές απαντήσεις είναι του τύπου laquoελάχιστα ευχαριστημένοςraquo laquoαρκετά ευχαριστημένοςraquo
laquoπολύ ευχαριστημένοςraquo και laquoπάρα πολύ ευχαριστημένοςraquo Η απόσταση μεταξύ του laquoελάχιστα
ευχαριστημένοςraquo και του laquoαρκετά ευχαριστημένοςraquo δεν είναι ίση με την απόσταση μεταξύ του
laquoπολύ ευχαριστημένοςraquo και του laquoπάρα πολύ ευχαριστημένοςraquo Διχοτομική κλίμακα είναι αυτή
στην οποία οι πιθανές απαντήσεις είναι δύο και σε αντίθετες κατευθύνσεις μεταξύ τους το laquoναιraquo
και το laquoόχιraquo με βάση το αν πέτυχε κάποιος σε ένα τεστ το laquoσωστόraquo και το laquoλάθοςraquo στη γραφή
μιας λέξης το laquoευχαριστημένοςraquo και το laquoδυσαρεστημένοςraquo σε ένα ερωτηματολόγιο κλπ
Η ανάλυση δεδομένων τακτικών τιμών επηρεάζεται από το εύρος των διαθέσιμων επιλογών
Πράγματι τα αποτελέσματα της ανάλυσης είναι πολύ διαφορετικά αν η κλίμακα που
χρησιμοποιούμε έχει λίγες ή περισσότερες πιθανές κατηγορίες Άλλη συσχέτιση έχουν για
παράδειγμα κλίμακες με τέσσερα άνισα διαστήματα και άλλη συσχέτιση έχουν κλίμακες με
οκτώ άνισα διαστήματα Άλλη συμπεριφορά έχουν οι κλίμακες στις οποίες υπάρχει κάποια
μεσαία ή laquoουδέτερηraquo κατηγορία (πχ laquoούτε ευχαριστημένος ούτε δυσαρεστημένοςraquo) και άλλη
συμπεριφορά έχουν οι κλίμακες οι οποίες κατευθύνουν αναγκαστικά τον ανταποκρινόμενο είτε
προς την πλευρά μιας γενικότερης ικανοποίησης είτε προς την πλευρά μιας γενικότερης μη
ικανοποίησης χωρίς τη δυνατότητα κάποιας ουδέτερης ή μεσαίας επιλογής Οι κλίμακες
διαφέρουν επίσης ως προς την ύπαρξη κάποιας laquoμηδενικήraquo κατηγορίας όπως θα ήταν το
laquoκαθόλου ευχαριστημένοςraquo το οποίο διαφέρει σε τεράστιο βαθμό από το laquoλίγο ευχαριστημένοςraquo
και από το υπόλοιπο μέρος της κλίμακας
ΛΑΝΘΑΝΟΥΣΕΣ ΜΕΤΑΒΛΗΤΕΣ ΚΑΙ ΑΝΑΛΥΣΗ ΠΑΡΑΓΟΝΤΩΝ
Στο πλαίσιο της κλασικής θεωρίας των μετρήσεων εντάσσονται και κάποιες τεχνικές ανάλυσης
με τις οποίες οι ερευνητές μετρούν λανθάνουσες μεταβλητές δηλαδή μεταβλητές που δεν
παρατηρούνται ευθέως Τέτοιες μεταβλητές έχουν να κάνουν για παράδειγμα με τις στάσεις
και τις προσδοκίες των ανθρώπων τις γνώσεις τους τις συμπεριφορές τους τις δεξιότητές τους
Διάφοροι μελετητές έχουν εκφράσει διαφορετικές απόψεις για το πώς τελικά θα έπρεπε να
εννοούνται οι λανθάνουσες μεταβλητές στην ψυχολογική αλλά και την παιδαγωγική και την
κοινωνική έρευνα Ο Bollen (2002) έχει συγκεντρώσει κριτικά πολλές κατηγορίες ορισμών πριν
δώσει τελικά τον δικό του σύμφωνα με τον οποίο laquoμια τυχαία ή μη τυχαία μεταβλητή
ονομάζεται ldquoλανθάνουσαrdquo όταν κάποιες από τις παρατηρήσεις της δεν πραγματώνονται σε ένα
ορισμένο δείγμαraquo (Bollen ό π 612)
Βασική ιδέα στην κλασική θεωρία της μέτρησης είναι ότι οι παρατηρήσεις συνδέονται με ένα
σύνολο λανθανουσών μεταβλητών οι οποίες έχουν τη μορφή κοινών παραγόντων Επιδίωξη
4
της ανάλυσης είναι να εκφραστούν οι παρατηρήσεις (έστω 1x ως px ) με τους κοινούς αυτούς
παράγοντες 1f ως qf αφού φυσικά αυτοί πρώτα αναγνωριστούν τόσο ως προς τον αριθμό τους
όσο και ως προς τη φύση τους Αν φυσικά υπάρχει μια εκ των προτέρων θεωρία για τον αριθμό
και τη φύση αυτών των παραγόντων τότε η θεωρία αυτή τίθεται υπό δοκιμασία με βάση τα
δεδομένα που συλλέγονται Στις παρακάτω εκφράσεις τα είναι οι συντελεστές των
παραγόντων f ενώ τα u είναι το μέρος των x που δεν εξηγείται από τους κοινούς παράγοντες
Τα i είναι κάποιες ποσότητες για την περίπτωση που τα f είναι μηδέν ενώ τα i είναι οι
συντελεστές των f Οι παρακάτω εξισώσεις θυμίζουν γραμμική παλινδρόμηση μόνο που τώρα
τα f δεν είναι laquoανεξάρτητες μεταβλητέςraquo Στην ανάλυση παραγόντων τα ίδια τα δεδομένα θα
ορίσουν τον αριθμό και τη φύση των f
1 1 11 1 12 2 1 1
2 2 21 12 22 2 2 2
1 1 2 2
q q
q
p p p p pq p
x f f f u
x f f u
x f f u
Οι παραπάνω σχέσεις γράφονται με μορφή πινάκων ως x =μ + Λf + u Τα 1 px x αφορούν p
παρατηρήσεις σε έναν μόνο μέλος του δείγματος Για ένα δείγμα μεγέθους n η προηγούμενη
ισότητα γράφεται i i ix =μ + Λf + u με 12i n
Στην πιο πάνω έκφραση τα μ είναι οι τιμές όταν οι παράγοντες η προσδοκία των παραγόντων
είναι μηδέν δηλαδή ( )E x όταν 1 2
0q
f f f Το μη εξηγούμενο μέρος δηλαδή τα u είναι
ανεξάρτητο από το κοινό μέρος δηλαδή τα f δηλαδή η συνδιακύμανση cov( ) 0r su f Ο μέσος
όρος των u είναι μηδέν ( ) 0E u Τέλος ο πίνακας διακυμάνσεων-συνδιακυμάνσεων των u είναι
διαγώνιος cov( ) u Ψ με τη διακύμανση στη διαγώνιο και τις συνδιακυμάνσεις μηδέν Όταν
λέμε ότι ένας πίνακας είναι laquoδιαγώνιοςraquo εννοούμε ότι δεν υπάρχει σχέση μεταξύ των u Για δύο
μόνο u η κατανομή θα έμοιαζε με το αριστερό τμήμα στο Σφάλμα Το αρχείο προέλευσης της
αναφοράς δεν βρέθηκε σελ Σφάλμα Δεν έχει οριστεί σελιδοδείκτης Για περισσότερα u η
κατανομή θα είχε περισσότερες διαστάσεις
Έχουμε λοιπόν ότι τα u και οι παράγοντες f είναι ανεξάρτητοι μεταξύ τους Έχουμε επίσης
ότι ο Ψ είναι διαγώνιος cov( )u Ψ καθώς και ότι cov(f) = I (όπου I ο μοναδιαίος πίνακας) Με
όλα αυτά υπόψη ο πίνακας διακυνάνσεων-συνδιακυμάνσεων των x είναι Σ και είναι
cov( )x ΤΣ = ΛΛ +Ψ
Αντιστρόφως αν ο πίνακας Σ μπορεί να γραφτεί ως ΤΛΛ + Ψ τότε υπάρχουν κοινοί
παράγοντες f
Η γενικότερη ιδέα της εύρεσης ενός αριθμού κοινών λανθανουσών μεταβλητών οι οποίες από
κοινού laquoεξηγούνraquo μέρος της διακύμανσης στα x αποτελεί την ουσία της ανάλυσης παραγόντων
και είναι μια βασική κατάκτηση της κλασικής θεωρίας των μετρήσεων Η διακύμανση που από
κοινού εξηγούν οι κοινοί παράγοντες συμβολίζεται με 2h
5
Η συνολική διακύμανση στα x είναι 2
1
k
ij ij
j
u
Η ποσότητα 2 2
1
k
i ij
j
h
ονομάζεται
ldquocommunalityrdquo και όπως είπαμε είναι η διακύμανση που επεξηγείται από τους κοινούς
παράγοντες Οι κοινοί αυτοί παράγοντες θα μπορούσαν θεωρητικά να εξηγήσουν όλη τη
διακύμανση στα x αν το πλήθος τους ήταν ίσο με το πλήθος των x Στη περίπτωση αυτή όμως
δεν θα είχε νόημα η ανάλυση παραγόντων διότι θα επρόκειτο στην ουσία για μια διαφορετική
έκφραση των ίδιων μεταβλητών Στην ουσία αυτό που θέλουμε είναι να μειώνουμε τον αριθμό
των παρατηρούμενων μεταβλητών σε έναν χώρο λιγότερων διαστάσεων Άρα στην ανάλυση
παραγόντων τα f είναι πάντα λιγότερα από τα x
Οι συντελεστές των f μπορεί να είναι διαφορετικοί και θεωρητικά υπάρχουν πολλοί
ισοδύναμοι πίνακες Λ Σε μια διερευνητική ανάλυση παραγόντων είναι στο χέρι των ερευνητών
να επιλέξουν κατάλληλους συντελεστές των f θέτοντας περιορισμούς στις διακυμάνσεις μέσω
κατάλληλων αλγόριθμων όπως ο Varimax ή o Oblimim Για να υπολογιστούν τα (ας
υποθέσουμε ότι ο αριθμός των f έχει ήδη καθοριστεί) υπάρχουν δύο γνωστές μέθοδοι στη
βιβλιογραφία η μέθοδος της μέγιστης πιθανοφάνειας και η μέθοδος των κύριων παραγόντων
Στην πρώτη η οποία είναι μέθοδος που διευκολύνθηκε από τους σημερινούς γρήγορους
υπολογιστές μεγιστοποιούμε τη πιθανοφάνεια του Λ ως προς τον Ψ Διάφοροι στατιστικοί
δίνουν την ποσότητα που μεγιστοποιούμε με τη μέθοδο αυτή (βλ Kreiner amp Christensen 2014
Stoica amp Jansson 2009 Thomson 1980) Ως λογαριθμική πιθανοφάνεια είναι
1
1
1logL log ( ) ( )
2 2
n
i
n
i iΣ x - μ Σ x - μ
Τέλος στην εκπαιδευτική έρευνα χρησιμοποιείται πολλές φορές εναλλακτικά προς την ανάλυση
παραγόντων η ανάλυση κυρίων συνιστωσών (βλ Kellow 2006 Smith 2002) Η ανάλυση κυρίων
συνιστωσών όμως δεν ε ίναι ανάλυση παραγόντων αλλά όπως λέει το όνομά της
συνιστωσών δηλαδή ένας γραμμικός μαθηματικός μετασχηματισμός των δεδομένων σε έναν
μικρότερο αριθμό διαστάσεων Όταν δε οι συντελεστές των συνιστωσών αλλάζουν ώστε αυτές
να αποκτήσουν ουσιαστικότερη σχέση με τα αρχικά δεδομένα τότε οι συνιστώσες δεν είναι
laquoκύριεςraquo
Παρόλα αυτά η δομή που θέτει η ανάλυση κυρίων συνιστωσών στα δεδομένα μοιάζει με τη δομή
που θέτει στα δεδομένα η ανάλυση παραγόντων Η δομή των k κυρίων συνιστωσών είναι
i i ix =μ +Γk + e όπου ο πίνακας Γ είναι ο πίνακας των συντελεστών και ie τα υπόλοιπα Η διαφορά
όμως της ανάλυσης παραγόντων από την ανάλυση κύριων συνιστωσών είναι ότι στην ανάλυση
παραγόντων ο πίνακας cov( )u είναι διαγώνιος ενώ στην ανάλυση κυρίων συνιστωσών ο
αντίστοιχος πίνακας cov( )i
e δεν είναι διαγώνιος Έτσι οι σκοποί της ανάλυσης συνιστωσών και
της ανάλυσης παραγόντων διαφέρουν ελαφρώς Στην ανάλυση συνιστωσών έχουμε τη βέλτιστη
δυνατή εξερεύνηση των διακυμάνσεων των ix ενώ στην ανάλυση παραγόντων εξερευνούμε τις
συνάφειες και τις συνδιακυμάνσεις Στην πράξη η ανάλυση παραγόντων και η ανάλυση κύριων
συνιστωσών δίνουν αποτελέσματα που δεν διαφέρουν εντυπωσιακά ιδιαίτερα αν οι
διακυμάνσεις είναι μικρές Στη θεωρητική περίπτωση που 0e u τα αποτελέσματά της
ανάλυσης παραγόντων και της ανάλυσης κυρίων συνιστωσών θα ταυτίζονταν Κάτι τέτοιο όμως
6
δεν είναι ρεαλιστικό Και οι δύο τεχνικές πάντως επειδή βασίζονται σε διακυμάνσεις ή
συνάφειες απαιτούν κλίμακες ίσων διαστημάτων αν και τελευταία έχουν αναπτυχθεί τεχνικές
για αντίστοιχες αναλύσεις με τακτικές τιμές
Η νέα θεωρία των μετρήσεων
Η ΠΡΟΣΕΓΓΙΣΗ ΤΟΥ GEORG RASCH
Τα τελευταία χρόνια μια νέα θεωρία έχει προταθεί για τη ψυχολογική μέτρηση η οποία
υπόσχεται ότι ξεπερνάει πολλούς από τους περιορισμούς της κλασικής θεωρίας που είδαμε στις
προηγούμενες παραγράφους H θεωρία αυτή είναι η Item Response Theory (IRT) δηλαδή η
Θεωρία Ανάλυσης Αποκρίσεων ή σε ελεύθερη απόδοση η Νέα Ψυχομετρική Θεωρία Οι απαρχές
της θεωρίας αυτής ανιχνεύονται στο έτος 1943 στη δουλειά του Σκωτσέζου στατιστικού Derrick
Lawley ο οποίος εργαζόταν κοντά στον παιδαγωγό Godfrey Thomson σε ένα γραφείο στο
Moorey House του Πανεπιστημίου του Εδιμβούργου Βασική φιλοσοφία της εν λόγω θεωρίας
είναι ότι οι μετρήσεις των διαφόρων χαρακτηριστικών των ανθρώπων εξαρτώνται τόσο από
αυτά που θέλουμε να μετρήσουμε όσο και από τα χαρακτηριστικά των θεμάτων των τεστ με τα
οποία γίνεται η μέτρηση Έτσι με τη νέα θεωρία μετριέται ταυτοχρόνως το υποκείμενο και το
εργαλείο της μέτρησης Αυτή τη θεωρία χρησιμοποίησαν οι Σιδεριδης κά (2008) στην έρευνα
που θα παρουσιάσουμε πιο κάτω
Μεγάλη ώθηση στη νέα θεωρία των μετρήσεων έδωσε ο Δανός μαθηματικός Georg Rasch ο
οποίος πρότεινε μοντέλα για διχοτομικές απαντήσεις τύπου laquoσωστόraquo - laquoλάθοςraquo Τα εν λόγω
μοντέλα πήραν το όνομά του όπως θα δούμε παρακάτω σε αυτό το κεφάλαιο Σημαντικήγια
τον τύπο αυτόν της μέτρησης ήταν επίσης και η συμβολή της Ιαπωνίδας μαθηματικού Fumiko
Samejima η οποία μελέτησε αντίστοιχες μεθόδους για περιπτώσεις που τα αποτελέσματα των
τεστ δεν έχουν μόνο δύο αλλά περισσότερες από δύο κατηγορίες (Samejima 1969) Οι Darrell Bock
και David Thissen από το Πανεπιστήμιο του Σικάγου αλλά και άλλοι ερευνητές όπως ο
Αυστριακός David Andrich εργάστηκαν ανεξάρτητα στην εν λόγω θεωρία και επέκτειναν την
ιδέα της Samejima ως προς την τελειοποίηση κατάλληλων αλγορίθμων για τον υπολογισμό
μοντέλων της θεωρίας αυτής για περιπτώσεις τεστ με πολλές κατηγορίες ενώ Gerhard Fischer
επέκτεινε προς την ίδια κατεύθυνση τα μοντέλα τύπου
Rasch Στην διάδοση της Θεωρίας των Αποκρίσεων
σημαντική υπήρξε και η συμβολή του Αμερικανού
φυσικού Benjamin Wright ο οποίος ήταν από τους
πρώτους που χρησιμοποίησαν ηλεκτρονικούς
υπολογιστές με λυχνίες και με την τεχνολογία του 1959
για τις ανάγκες υπολογισμού των παραμέτρων στην
ανάλυση δεδομένων μέσω Θεωρίας των Αποκρίσεων
Ο Wright συνεχίζει μέχρι σήμερα με τις σύγχρονες
υπολογιστικές δυνατότητες να εργάζεται με τη Item
Response Theory και να διαδίδει το λογισμικό Winsteps
για αναλύσεις κατά Rasch Έτσι λοιπόν έχουμε τρία
μοντέλα Θεωρίας Αποκρίσεων ανάλογα με τους
πόσους παράγοντες χειρίζονται (α) μοντέλα με ένα
Εικόνα 2 Ο Δανός Μαθηματικός Georg
Rasch (αριστερά) με τον φυσικό
Benjamin Wright πρωτοπόρο στη
χρήση των υπολογιστών για
ψυχομετρικές αναλύσεις
7
παράγοντα (ή μοντέλα Rasch) (β) μοντέλα με δύο παράγοντες και (γ) μοντέλα με τρεις
παράγοντες αν και πολλοί υπολογίζουν τα μοντέλα Rasch ως μια κατηγορία από μόνη της η
οποία διαφέρει από τα μοντέλα με έναν παράγοντα Στις επόμενες παραγράφους θα
αναλύσουμε τα βασικά σημεία της Θεωρίας των Αποκρίσεων και ιδιαίτερα της ανάλυσης κατά
Rasch Στην Ελλάδα η θεωρία αυτή αναπτύχθηκε κατrsquo αρχάς στην ψυχολογική έρευνα με βάση
τις εργασίες του καθηγητή του Πανεπιστημίου του Harvard Γιώργου Σιδερίδη (Sideridis 2011) Ο
πρώτος Έλληνας παιδαγωγός (όχι ψυχολόγος) που έγραψε για τη θεωρία αυτή ήταν ο
καθηγητής του Τμήματος Φιλοσοφίας ndash Παιδαγωγικής ndash Ψυχολογίας του Πανεπιστημίου
Αθηνών Μιχάλης Κασσωτάκης στο βιβλίο του Η Αξιολόγηση της Επίδοσης των Μαθητών
(Κασσωτακης 2013)
Η Θεωρία των Αποκρίσεων όπως και η Κλασική Θεωρία δέχεται ότι υπάρχει μια λανθάνουσα
μεταβλητή η οποία μετριέται με τα ερωτήματα του τεστ (τα items) Αυτή η μεταβλητή
συμβολίζεται στην Θεωρία των Αποκρίσεων με Δέχεται επίσης η Θεωρία των Αποκρίσεων
ότι κάθε ερώτημα έχει και έναν βαθμό δυσκολίας ο οποίος επηρεάζει τη σωστή απάντηση σε
καθένα από αυτά Η δυσκολία του ερωτήματος συμβολίζεται με Η πιθανότητα να απαντήσει
κάποιος σωστά σε ένα θέμα εξαρτάται από την ικανότητά αλλά και την δυσκολία του θέματος
Ισχύει δηλαδή η εξής γραμμικη λογική Πιθανότητα ορθής απάντησης = ικανότητα
του υποψηφίου ndash δυσκολία του θέματος
Με την πιο πάνω λογική αν ένας μαθητής μέτριας ικανότητας n καταπιαστεί με ένα θέμα
μέτριας δυσκολίας i τότε 120579119899minus120575119894= 0 Στην περίπτωση αυτή ο μαθητής έχει ίσες πιθανότητες να
απαντήσει ή να μην απαντήσει στο ερώτημα και άρα η πιθανότητα σωστής απάντησης είναι 05
Αν η ικανότητα του μαθητή είναι μεγαλύτερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894gt0 και
ο μαθητής έχει πιθανότητα να απαντήσει στο ερώτημα μεγαλύτερη από 05 Αν η ικανότητα του
μαθητή είναι μικρότερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894lt0 και η πιθανότητα ορθής
απάντησης είναι μικρότερη από 05 Για παράδειγμα ας υποθέσουμε ότι ρωτήσαμε έναν αριθμό
μαθητών να μας γράψουν τις λέξεις laquoαπόraquo laquoαυτοκίνητοraquo laquoδιαδίκτυοraquo laquoκωλυσιεργίαraquo και
laquoαντενδείκνυταιraquo Η πιθανότητα να απαντήσει κάποιος ορθά σε κάποια από αυτές τις λέξεις
υπολογίζεται με βάση (α) το πώς έχουν απαντήσει οι υπόλοιποι εξεταζόμενοι στην ίδια λέξη και
(β) πώς έχει απαντήσει ο ίδιος εξεταζόμενος στις υπόλοιπες ερωτήσεις Η σωστή ή λάθος
απάντηση εξαρτάται από την ορθογραφική του ικανότητα μείον την δυσκολία της λέξης Ας
υποθέσουμε ότι ένας εξεταζόμενος μπορεί να γράψει ορθογραφημένα μια λέξη με πιθανότητα
40 τοις εκατό ή 040 Η πιθανότητα να μην γράψει ορθογραφημένα τη λέξη είναι το υπόλοιπο 60
τοις εκατό ή 060 αφού 1 040 060 Αυτή η τελευταία είναι laquoσυμπληρωματική πιθανότηταraquo
του 040 Αν η πιθανότητα ενός ενδεχομένου είναι p η συμπληρωματική είναι 1 p
ΟΙ ΛΟΓΙΣΤΙΚΕΣ ΜΟΝΑΔΕΣ (LOGIT)
Επειδή η πιθανότητα p είναι δύσκολο να μοντελοποιηθεί αφού παίρνει τιμές στο κλειστό
διάστημα μεταξύ του 0 και του 1 χρησιμοποιούμε συχνά στη στατιστική το κλάσμα της
πιθανότητας προς την συμπληρωματική της Για παράδειγμα αν ρίχνουμε ένα ζάρι με
πιθανότητα να κερδίσουμε 50 τοις εκατό ή 05 τα odds είναι 05 05
11 05 05
To odd λοιπόν είναι
1
p
p και είναι η πιθανότητα ενός ενδεχομένου προς τη συμπληρωματική της Τα κλάσμα αυτό
8
παίρνει τιμές από το 0 μέχρι θεωρητικά το συν άπειρο Όσο η πιθανότητα ενός ενδεχομένου
προσεγγίζει το μηδέν το κλάσμα προσεγγίζει το μηδέν Όσο η πιθανότητα προσεγγίζει τη
μονάδα το κλάσμα προσεγγίζει το συν άπειρο Στο παράδειγμα που είδαμε στην προηγούμενη
ενότητα ο το κλάσμα της πιθανότητας προς τη συμπληρωματική της θα ήταν
πιθανότητα ορθής απάντησης
πιθανότητα λανθασμένης απάντησης 040
066060
Για να μετατρέψουμε το κλάσμα πάλι σε
πιθανότητα εργαζόμαστε αντίστροφα και έχουμε ότι 066
0401 1 066
oddp
odd
Το κλάσμα της πιθανότητας προς τη συμπληρωματική της έχει πάντα θετικές τιμές Στον
Σφάλμα Το αρχείο προέλευσης της αναφοράς δεν βρέθηκε που ακολουθεί βλέπουμε στην
πρώτη γραμμή τις πιθανότητες από 001 ως 099 Στη δεύτερη γραμμή παρουσιάζονται τα odds
δηλαδή οι λόγοι των πιθανοτήτων που βρίσκονται στη πρώτη γραμμή προς τις αντίστοιχες
συμπληρωματικές πιθανότητες Στη τρίτη γραμμή τιμές βλέπουμε ξανά τις τιμές odds σε
δεκαδική μορφή να είναι μικρότερες της μονάδες για πιθανότητες μικρότερες του 05 και
μεγαλύτερες από τη μονάδα για πιθανότητες μεγαλύτερες του 05 του κλάσματος αυτού για
πιθανότητες από 001 ως 099 ή 99 τοις εκατό Στην τέταρτη γραμμή παρουσιάζονται οι φυσικοί
λογάριθμοι των odds δηλαδή ως δυνάμεις στις οποίες πρέπει να υψωθεί ο αριθμός e για να
δώσει την τιμή του odd Ο αριθμός e είναι ο 2718 Για το παράδειγμα που αναφέραμε
προηγουμένως έχουμε στην έβδομη στήλη του Πίνακας 1 ότι 041 066e
Πίνακας 1 Οdds (πιθανότητα προς τη συμπληρωματική της) και λογιστικές μονάδες
Πιθανότητα p 001 010 020 030 040 050 060 070 080 090
Odds 1
p
p 1
99
10
90
20
80
30
70
40
60
50
50
60
40
70
30
80
20
90
10
Τιμές των
odds
001 011 025 043 066 1 150 233 4 9
logit ln
1
p
p
-460 -220 -138 -084 -041 0 040 084 138 218
Με μαθηματικό συμβολισμό αυτό γράφεται ως ln1
py
p
και
1y pe
p
Στο δικό μας
παράδειγμα έχουμε 040066 e και συνεπώς ln(067) 040
Ο μετασχηματισμός αυτός όπως βλέπουμε στο Σχήμα 1 μετατρέπει την πιθανότητα στον
κάθετο άξονα η οποία είναι πάντα θετική και περιορίζεται στο διάστημα (0 1) σε λογιστικές
μονάδες που θεωρητικά παίρνουν τιμές από το πλην άπειρο στο συν άπειρο
9
Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά
τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία
δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008
Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες
10
Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία
11
ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ
Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία
Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα
12
Οι συγγραφείς
συνοψίζουν στη σελίδα
292 της εργασίας τους
ότι το ελληνικό
ορθογραφικό σύστημα
χαρακτηρίζεται από
πολυσήμαντη
αντιστοιχία
ταυτόχρονη
αντιστοιχία αλλά και
αναντιστοιχία μεταξύ
φθόγγων και
γραφημάτων Έτσι
καταλήγουν στο
συμπέρασμα ότι laquoη
ακριβής γραφή των
λέξεων εξαρτάται
εκτός από τη
φωνημική επιγνωση
του αναγνώστη και
από το
οπτικοορθογραφικό
του λεξικό και τη
μορφολογική του
επίγνωσηraquo
Οι συγγραφείς
παρουσιάζουν
στοιχεία για παρόμοιες
διδακτικές
παρεμβάσεις στην
Ελλάδα και στην δεξιά
στήλη της επόμενης
σελίδας 293
αναφέρονται στη δική
τους εργασία ως μέρος
μιας ευρύτερης
διαχρονικής μελέτης
που περιελάμβανε
πέντε διαδοχικές
μετρήσεις
13
Και η
βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας
επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός
ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση
θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι
laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός
τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για
το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η
αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια
αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα
ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια
14
θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν
ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι
αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια
αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ
έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν
βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό
και στο άλλο
15
Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία
ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον
πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα
χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι
συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους
συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη
και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που
είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα
1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος
16
τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της
κατανομής της ηλικίας
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ
Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα
laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό
τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες
περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές
ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να
πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα
Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι
ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την
ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε
μεγάλη θεωρητική και στατιστική σημασία
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
2
Κάθε ερώτημα σε ένα τεστ
μπορεί σύμφωνα με την Κλασική
Θεωρία να θεωρηθεί εύκολο ή
δύσκολο ανάλογα με το πόσοι
συμμετέχοντες το απάντησαν
σωστά Με τον τρόπο αυτόν τα
ερωτήματα διαφέρουν αρχικά ως
προς τη χρησιμότητά τους Όπως
γίνεται εύκολα αντιληπτό αυτά
που απαντιούνται απrsquo όλους και
αυτά που δεν απαντώνται από
κανέναν δεν είναι πολύ χρήσιμα
για τους ερευνητές και θα
μπορούσαν να παραλειφτούν
από το τεστ Στην Κλασική
Θεωρία επίσης κάθε ερώτημα
χαρακτηρίζεται από τη
δυνατότητα διάκρισης που έχει
ανάλογα με το πόσο καλά
διαφοροποιεί τους ικανούς και
τους λιγότερο ικανούς μαθητές Τη δυνατότητα διάκρισης ενός ερωτήματος την υπολογίζουμε
στην Κλασική Θεωρία μέσω της διαφοράς στην παρατηρούμενη βαθμολογία που έχει τριάντα
περίπου τοις εκατό των υψηλότερων βαθμολογιών από το τριάντα τοις εκατό των χαμηλότερων
βαθμολογιών Αυτή η δυνατότητα διάκρισης συνδέεται με τον συντελεστή συσχέτισης κάθε
ερωτήματος με όλα τα άλλα ερωτήματα του τεστ Όσο πιο πολύ σχετίζεται ένα θέμα με όλα τα
άλλα θέματα τόσο μεγαλύτερη αξιοπιστία θεωρείται ότι διαθέτει ένα τεστ Μέσω της Κλασικής
Θεωρίας λοιπόν οι ερευνητές μπορούν να υπολογίσουν το πραγματικό σκορ καθώς και τις
ψυχομετρικές ιδιότητες κάθε μεμονωμένου ερωτήματος ενός τεστ
Η Κλασική Θεωρία όμως έχει ορισμένα προβλήματα Κατrsquo αρχάς προϋποθέτει ότι όλες οι
ερωτήσεις σε ένα τεστ μετρούν το πραγματικό σκορ με τον ίδιο ακριβώς τρόπο Για παράδειγμα
αν έχουμε ένα τεστ ή ένα ερωτηματολόγιο με 10 ερωτήσεις τύπου Likert ndashας υποθέσουμε 1=
laquoλίγοraquo 2= laquoαρκετάraquo 3= laquoπολύraquo και 4= laquoπάρα πολύraquo- υπάρχουν πάνω από ένα εκατομμύριο και
σαράντα οκτώ χιλιάδες πιθανοί συνδυασμοί απαντήσεων Μέσα σε αυτούς τους συνδυασμούς
υπάρχουν πάρα πολλοί συνδυασμοί με τους οποίους μπορεί να πάρει κανείς ένα σκορ ας πούμε
ίσο με 20 Η κλασική θεωρία υποστηρίζει ότι όλοι οι συνδυασμοί που δίνουν σκορ 20 έχουν την
ίδια ουσιαστική βαρύτητα στη μέτρηση της θεωρητικής κατασκευής Αυτό όμως δεν είναι
αλήθεια διότι κάθε ερώτημα συνδέεται με διαφορετικό τρόπο με τη θεωρητική κατασκευή που
θέλουμε να μετρήσουμε Άλλο είναι για παράδειγμα να απαντήσει κάποιος laquoπολύraquo στην
ερώτηση laquoκατά πόσο συμφωνείτε με την πρόσφατη θέσπιση του πολιτικού γάμουraquo και άλλο
είναι να απαντήσει κανείς laquoπολύraquo στην ερώτηση laquoπόσο πιθανό είναι να παντρευτείτε εσείς
προσωπικά με πολιτικό γάμοraquo Αν και θεωρητικά υπάρχει δυνατότητα και στατιστικοί τρόποι
ώστε τα ερωτήματα ενός τεστ να υπολογίζονται με διαφορετικούς συντελεστές βαρύτητας το
καθέναν (πχ μέσω Ανάλυσης Παραγόντων ή μέσω του συντελεστή συνάφειας ενός
ερωτήματος με τα υπόλοιπα ερωτήματα κλπ) η διαφοροποιημένη βαρύτητα δεν επηρεάζει
δομικά το τεστ Μπορεί για παράδειγμα μέσω διαφορετικών συντελεστών βαρύτητας να
πάρουμε διαφορετικά τελικά σκορ για δύο εξεταζόμενους που χωρίς τους συντελεστές θα είχαν
Εικόνα 1 Από το 1925 υπήρχε επίγνωση ότι τα ερωτήματα ενός τεστ
δεν έχουν τον ίδιο βαθμό δυσκολίας Ποσοστά ορθών
ανταποκρίσεων στις δοκιμασίες του τεστ των Binet-Simon σε παιδιά
διαφορετικών ηλικιών (πηγή Thurstone 1925 444) Οι αριθμοί πάνω
στις γραμμές αναφέρονται στον αριθμό των δοκιμασιών
3
δομήσει το ίδιο σκορ διαφορετικά αλλά η εσωτερική εγκυρότητα και αξιοπιστία των αρχικών
ερωτημάτων δεν θα άλλαζε
Ένα άλλο σοβαρό ζήτημα σε σχέση με την κλασική θεωρία είναι ότι οι κλίμακες μέτρησης της
θεωρητικής κατασκευής πρέπει να είναι τουλάχιστον ίσων διαστημάτων και όχι τακτικών τιμών
ή πολύ περισσότερο διχοτομικές (βλ Linacre 2005) Κλίμακες ίσων διαστημάτων είναι αυτές στις
οποίες η κλίμακα μέτρησης έχει ίσα διαστήματα από το ένα σημείο στο άλλο Κλίμακα ίσων
διαστημάτων είναι για παράδειγμα μια κλίμακα που θα μετρούσε την ηλικία ενός μαθητή σε
μήνες ή μια κλίμακα που θα μετρούσε τον αριθμό των λέξεων ενός κειμένου Κλίμακες τακτικών
τιμών ή άνισων διαστημάτων από την άλλη μεριά είναι κλίμακες στις οποίες τα διαστήματα από
μία τιμή στην άλλη δεν είναι ίσα Τέτοιες κλίμακες έχουμε για παράδειγμα κατά την καταγραφή
θετικής ή αρνητικής άποψης σε μια έρευνα διερεύνησης της κοινής γνώμης στις οποίες οι
πιθανές απαντήσεις είναι του τύπου laquoελάχιστα ευχαριστημένοςraquo laquoαρκετά ευχαριστημένοςraquo
laquoπολύ ευχαριστημένοςraquo και laquoπάρα πολύ ευχαριστημένοςraquo Η απόσταση μεταξύ του laquoελάχιστα
ευχαριστημένοςraquo και του laquoαρκετά ευχαριστημένοςraquo δεν είναι ίση με την απόσταση μεταξύ του
laquoπολύ ευχαριστημένοςraquo και του laquoπάρα πολύ ευχαριστημένοςraquo Διχοτομική κλίμακα είναι αυτή
στην οποία οι πιθανές απαντήσεις είναι δύο και σε αντίθετες κατευθύνσεις μεταξύ τους το laquoναιraquo
και το laquoόχιraquo με βάση το αν πέτυχε κάποιος σε ένα τεστ το laquoσωστόraquo και το laquoλάθοςraquo στη γραφή
μιας λέξης το laquoευχαριστημένοςraquo και το laquoδυσαρεστημένοςraquo σε ένα ερωτηματολόγιο κλπ
Η ανάλυση δεδομένων τακτικών τιμών επηρεάζεται από το εύρος των διαθέσιμων επιλογών
Πράγματι τα αποτελέσματα της ανάλυσης είναι πολύ διαφορετικά αν η κλίμακα που
χρησιμοποιούμε έχει λίγες ή περισσότερες πιθανές κατηγορίες Άλλη συσχέτιση έχουν για
παράδειγμα κλίμακες με τέσσερα άνισα διαστήματα και άλλη συσχέτιση έχουν κλίμακες με
οκτώ άνισα διαστήματα Άλλη συμπεριφορά έχουν οι κλίμακες στις οποίες υπάρχει κάποια
μεσαία ή laquoουδέτερηraquo κατηγορία (πχ laquoούτε ευχαριστημένος ούτε δυσαρεστημένοςraquo) και άλλη
συμπεριφορά έχουν οι κλίμακες οι οποίες κατευθύνουν αναγκαστικά τον ανταποκρινόμενο είτε
προς την πλευρά μιας γενικότερης ικανοποίησης είτε προς την πλευρά μιας γενικότερης μη
ικανοποίησης χωρίς τη δυνατότητα κάποιας ουδέτερης ή μεσαίας επιλογής Οι κλίμακες
διαφέρουν επίσης ως προς την ύπαρξη κάποιας laquoμηδενικήraquo κατηγορίας όπως θα ήταν το
laquoκαθόλου ευχαριστημένοςraquo το οποίο διαφέρει σε τεράστιο βαθμό από το laquoλίγο ευχαριστημένοςraquo
και από το υπόλοιπο μέρος της κλίμακας
ΛΑΝΘΑΝΟΥΣΕΣ ΜΕΤΑΒΛΗΤΕΣ ΚΑΙ ΑΝΑΛΥΣΗ ΠΑΡΑΓΟΝΤΩΝ
Στο πλαίσιο της κλασικής θεωρίας των μετρήσεων εντάσσονται και κάποιες τεχνικές ανάλυσης
με τις οποίες οι ερευνητές μετρούν λανθάνουσες μεταβλητές δηλαδή μεταβλητές που δεν
παρατηρούνται ευθέως Τέτοιες μεταβλητές έχουν να κάνουν για παράδειγμα με τις στάσεις
και τις προσδοκίες των ανθρώπων τις γνώσεις τους τις συμπεριφορές τους τις δεξιότητές τους
Διάφοροι μελετητές έχουν εκφράσει διαφορετικές απόψεις για το πώς τελικά θα έπρεπε να
εννοούνται οι λανθάνουσες μεταβλητές στην ψυχολογική αλλά και την παιδαγωγική και την
κοινωνική έρευνα Ο Bollen (2002) έχει συγκεντρώσει κριτικά πολλές κατηγορίες ορισμών πριν
δώσει τελικά τον δικό του σύμφωνα με τον οποίο laquoμια τυχαία ή μη τυχαία μεταβλητή
ονομάζεται ldquoλανθάνουσαrdquo όταν κάποιες από τις παρατηρήσεις της δεν πραγματώνονται σε ένα
ορισμένο δείγμαraquo (Bollen ό π 612)
Βασική ιδέα στην κλασική θεωρία της μέτρησης είναι ότι οι παρατηρήσεις συνδέονται με ένα
σύνολο λανθανουσών μεταβλητών οι οποίες έχουν τη μορφή κοινών παραγόντων Επιδίωξη
4
της ανάλυσης είναι να εκφραστούν οι παρατηρήσεις (έστω 1x ως px ) με τους κοινούς αυτούς
παράγοντες 1f ως qf αφού φυσικά αυτοί πρώτα αναγνωριστούν τόσο ως προς τον αριθμό τους
όσο και ως προς τη φύση τους Αν φυσικά υπάρχει μια εκ των προτέρων θεωρία για τον αριθμό
και τη φύση αυτών των παραγόντων τότε η θεωρία αυτή τίθεται υπό δοκιμασία με βάση τα
δεδομένα που συλλέγονται Στις παρακάτω εκφράσεις τα είναι οι συντελεστές των
παραγόντων f ενώ τα u είναι το μέρος των x που δεν εξηγείται από τους κοινούς παράγοντες
Τα i είναι κάποιες ποσότητες για την περίπτωση που τα f είναι μηδέν ενώ τα i είναι οι
συντελεστές των f Οι παρακάτω εξισώσεις θυμίζουν γραμμική παλινδρόμηση μόνο που τώρα
τα f δεν είναι laquoανεξάρτητες μεταβλητέςraquo Στην ανάλυση παραγόντων τα ίδια τα δεδομένα θα
ορίσουν τον αριθμό και τη φύση των f
1 1 11 1 12 2 1 1
2 2 21 12 22 2 2 2
1 1 2 2
q q
q
p p p p pq p
x f f f u
x f f u
x f f u
Οι παραπάνω σχέσεις γράφονται με μορφή πινάκων ως x =μ + Λf + u Τα 1 px x αφορούν p
παρατηρήσεις σε έναν μόνο μέλος του δείγματος Για ένα δείγμα μεγέθους n η προηγούμενη
ισότητα γράφεται i i ix =μ + Λf + u με 12i n
Στην πιο πάνω έκφραση τα μ είναι οι τιμές όταν οι παράγοντες η προσδοκία των παραγόντων
είναι μηδέν δηλαδή ( )E x όταν 1 2
0q
f f f Το μη εξηγούμενο μέρος δηλαδή τα u είναι
ανεξάρτητο από το κοινό μέρος δηλαδή τα f δηλαδή η συνδιακύμανση cov( ) 0r su f Ο μέσος
όρος των u είναι μηδέν ( ) 0E u Τέλος ο πίνακας διακυμάνσεων-συνδιακυμάνσεων των u είναι
διαγώνιος cov( ) u Ψ με τη διακύμανση στη διαγώνιο και τις συνδιακυμάνσεις μηδέν Όταν
λέμε ότι ένας πίνακας είναι laquoδιαγώνιοςraquo εννοούμε ότι δεν υπάρχει σχέση μεταξύ των u Για δύο
μόνο u η κατανομή θα έμοιαζε με το αριστερό τμήμα στο Σφάλμα Το αρχείο προέλευσης της
αναφοράς δεν βρέθηκε σελ Σφάλμα Δεν έχει οριστεί σελιδοδείκτης Για περισσότερα u η
κατανομή θα είχε περισσότερες διαστάσεις
Έχουμε λοιπόν ότι τα u και οι παράγοντες f είναι ανεξάρτητοι μεταξύ τους Έχουμε επίσης
ότι ο Ψ είναι διαγώνιος cov( )u Ψ καθώς και ότι cov(f) = I (όπου I ο μοναδιαίος πίνακας) Με
όλα αυτά υπόψη ο πίνακας διακυνάνσεων-συνδιακυμάνσεων των x είναι Σ και είναι
cov( )x ΤΣ = ΛΛ +Ψ
Αντιστρόφως αν ο πίνακας Σ μπορεί να γραφτεί ως ΤΛΛ + Ψ τότε υπάρχουν κοινοί
παράγοντες f
Η γενικότερη ιδέα της εύρεσης ενός αριθμού κοινών λανθανουσών μεταβλητών οι οποίες από
κοινού laquoεξηγούνraquo μέρος της διακύμανσης στα x αποτελεί την ουσία της ανάλυσης παραγόντων
και είναι μια βασική κατάκτηση της κλασικής θεωρίας των μετρήσεων Η διακύμανση που από
κοινού εξηγούν οι κοινοί παράγοντες συμβολίζεται με 2h
5
Η συνολική διακύμανση στα x είναι 2
1
k
ij ij
j
u
Η ποσότητα 2 2
1
k
i ij
j
h
ονομάζεται
ldquocommunalityrdquo και όπως είπαμε είναι η διακύμανση που επεξηγείται από τους κοινούς
παράγοντες Οι κοινοί αυτοί παράγοντες θα μπορούσαν θεωρητικά να εξηγήσουν όλη τη
διακύμανση στα x αν το πλήθος τους ήταν ίσο με το πλήθος των x Στη περίπτωση αυτή όμως
δεν θα είχε νόημα η ανάλυση παραγόντων διότι θα επρόκειτο στην ουσία για μια διαφορετική
έκφραση των ίδιων μεταβλητών Στην ουσία αυτό που θέλουμε είναι να μειώνουμε τον αριθμό
των παρατηρούμενων μεταβλητών σε έναν χώρο λιγότερων διαστάσεων Άρα στην ανάλυση
παραγόντων τα f είναι πάντα λιγότερα από τα x
Οι συντελεστές των f μπορεί να είναι διαφορετικοί και θεωρητικά υπάρχουν πολλοί
ισοδύναμοι πίνακες Λ Σε μια διερευνητική ανάλυση παραγόντων είναι στο χέρι των ερευνητών
να επιλέξουν κατάλληλους συντελεστές των f θέτοντας περιορισμούς στις διακυμάνσεις μέσω
κατάλληλων αλγόριθμων όπως ο Varimax ή o Oblimim Για να υπολογιστούν τα (ας
υποθέσουμε ότι ο αριθμός των f έχει ήδη καθοριστεί) υπάρχουν δύο γνωστές μέθοδοι στη
βιβλιογραφία η μέθοδος της μέγιστης πιθανοφάνειας και η μέθοδος των κύριων παραγόντων
Στην πρώτη η οποία είναι μέθοδος που διευκολύνθηκε από τους σημερινούς γρήγορους
υπολογιστές μεγιστοποιούμε τη πιθανοφάνεια του Λ ως προς τον Ψ Διάφοροι στατιστικοί
δίνουν την ποσότητα που μεγιστοποιούμε με τη μέθοδο αυτή (βλ Kreiner amp Christensen 2014
Stoica amp Jansson 2009 Thomson 1980) Ως λογαριθμική πιθανοφάνεια είναι
1
1
1logL log ( ) ( )
2 2
n
i
n
i iΣ x - μ Σ x - μ
Τέλος στην εκπαιδευτική έρευνα χρησιμοποιείται πολλές φορές εναλλακτικά προς την ανάλυση
παραγόντων η ανάλυση κυρίων συνιστωσών (βλ Kellow 2006 Smith 2002) Η ανάλυση κυρίων
συνιστωσών όμως δεν ε ίναι ανάλυση παραγόντων αλλά όπως λέει το όνομά της
συνιστωσών δηλαδή ένας γραμμικός μαθηματικός μετασχηματισμός των δεδομένων σε έναν
μικρότερο αριθμό διαστάσεων Όταν δε οι συντελεστές των συνιστωσών αλλάζουν ώστε αυτές
να αποκτήσουν ουσιαστικότερη σχέση με τα αρχικά δεδομένα τότε οι συνιστώσες δεν είναι
laquoκύριεςraquo
Παρόλα αυτά η δομή που θέτει η ανάλυση κυρίων συνιστωσών στα δεδομένα μοιάζει με τη δομή
που θέτει στα δεδομένα η ανάλυση παραγόντων Η δομή των k κυρίων συνιστωσών είναι
i i ix =μ +Γk + e όπου ο πίνακας Γ είναι ο πίνακας των συντελεστών και ie τα υπόλοιπα Η διαφορά
όμως της ανάλυσης παραγόντων από την ανάλυση κύριων συνιστωσών είναι ότι στην ανάλυση
παραγόντων ο πίνακας cov( )u είναι διαγώνιος ενώ στην ανάλυση κυρίων συνιστωσών ο
αντίστοιχος πίνακας cov( )i
e δεν είναι διαγώνιος Έτσι οι σκοποί της ανάλυσης συνιστωσών και
της ανάλυσης παραγόντων διαφέρουν ελαφρώς Στην ανάλυση συνιστωσών έχουμε τη βέλτιστη
δυνατή εξερεύνηση των διακυμάνσεων των ix ενώ στην ανάλυση παραγόντων εξερευνούμε τις
συνάφειες και τις συνδιακυμάνσεις Στην πράξη η ανάλυση παραγόντων και η ανάλυση κύριων
συνιστωσών δίνουν αποτελέσματα που δεν διαφέρουν εντυπωσιακά ιδιαίτερα αν οι
διακυμάνσεις είναι μικρές Στη θεωρητική περίπτωση που 0e u τα αποτελέσματά της
ανάλυσης παραγόντων και της ανάλυσης κυρίων συνιστωσών θα ταυτίζονταν Κάτι τέτοιο όμως
6
δεν είναι ρεαλιστικό Και οι δύο τεχνικές πάντως επειδή βασίζονται σε διακυμάνσεις ή
συνάφειες απαιτούν κλίμακες ίσων διαστημάτων αν και τελευταία έχουν αναπτυχθεί τεχνικές
για αντίστοιχες αναλύσεις με τακτικές τιμές
Η νέα θεωρία των μετρήσεων
Η ΠΡΟΣΕΓΓΙΣΗ ΤΟΥ GEORG RASCH
Τα τελευταία χρόνια μια νέα θεωρία έχει προταθεί για τη ψυχολογική μέτρηση η οποία
υπόσχεται ότι ξεπερνάει πολλούς από τους περιορισμούς της κλασικής θεωρίας που είδαμε στις
προηγούμενες παραγράφους H θεωρία αυτή είναι η Item Response Theory (IRT) δηλαδή η
Θεωρία Ανάλυσης Αποκρίσεων ή σε ελεύθερη απόδοση η Νέα Ψυχομετρική Θεωρία Οι απαρχές
της θεωρίας αυτής ανιχνεύονται στο έτος 1943 στη δουλειά του Σκωτσέζου στατιστικού Derrick
Lawley ο οποίος εργαζόταν κοντά στον παιδαγωγό Godfrey Thomson σε ένα γραφείο στο
Moorey House του Πανεπιστημίου του Εδιμβούργου Βασική φιλοσοφία της εν λόγω θεωρίας
είναι ότι οι μετρήσεις των διαφόρων χαρακτηριστικών των ανθρώπων εξαρτώνται τόσο από
αυτά που θέλουμε να μετρήσουμε όσο και από τα χαρακτηριστικά των θεμάτων των τεστ με τα
οποία γίνεται η μέτρηση Έτσι με τη νέα θεωρία μετριέται ταυτοχρόνως το υποκείμενο και το
εργαλείο της μέτρησης Αυτή τη θεωρία χρησιμοποίησαν οι Σιδεριδης κά (2008) στην έρευνα
που θα παρουσιάσουμε πιο κάτω
Μεγάλη ώθηση στη νέα θεωρία των μετρήσεων έδωσε ο Δανός μαθηματικός Georg Rasch ο
οποίος πρότεινε μοντέλα για διχοτομικές απαντήσεις τύπου laquoσωστόraquo - laquoλάθοςraquo Τα εν λόγω
μοντέλα πήραν το όνομά του όπως θα δούμε παρακάτω σε αυτό το κεφάλαιο Σημαντικήγια
τον τύπο αυτόν της μέτρησης ήταν επίσης και η συμβολή της Ιαπωνίδας μαθηματικού Fumiko
Samejima η οποία μελέτησε αντίστοιχες μεθόδους για περιπτώσεις που τα αποτελέσματα των
τεστ δεν έχουν μόνο δύο αλλά περισσότερες από δύο κατηγορίες (Samejima 1969) Οι Darrell Bock
και David Thissen από το Πανεπιστήμιο του Σικάγου αλλά και άλλοι ερευνητές όπως ο
Αυστριακός David Andrich εργάστηκαν ανεξάρτητα στην εν λόγω θεωρία και επέκτειναν την
ιδέα της Samejima ως προς την τελειοποίηση κατάλληλων αλγορίθμων για τον υπολογισμό
μοντέλων της θεωρίας αυτής για περιπτώσεις τεστ με πολλές κατηγορίες ενώ Gerhard Fischer
επέκτεινε προς την ίδια κατεύθυνση τα μοντέλα τύπου
Rasch Στην διάδοση της Θεωρίας των Αποκρίσεων
σημαντική υπήρξε και η συμβολή του Αμερικανού
φυσικού Benjamin Wright ο οποίος ήταν από τους
πρώτους που χρησιμοποίησαν ηλεκτρονικούς
υπολογιστές με λυχνίες και με την τεχνολογία του 1959
για τις ανάγκες υπολογισμού των παραμέτρων στην
ανάλυση δεδομένων μέσω Θεωρίας των Αποκρίσεων
Ο Wright συνεχίζει μέχρι σήμερα με τις σύγχρονες
υπολογιστικές δυνατότητες να εργάζεται με τη Item
Response Theory και να διαδίδει το λογισμικό Winsteps
για αναλύσεις κατά Rasch Έτσι λοιπόν έχουμε τρία
μοντέλα Θεωρίας Αποκρίσεων ανάλογα με τους
πόσους παράγοντες χειρίζονται (α) μοντέλα με ένα
Εικόνα 2 Ο Δανός Μαθηματικός Georg
Rasch (αριστερά) με τον φυσικό
Benjamin Wright πρωτοπόρο στη
χρήση των υπολογιστών για
ψυχομετρικές αναλύσεις
7
παράγοντα (ή μοντέλα Rasch) (β) μοντέλα με δύο παράγοντες και (γ) μοντέλα με τρεις
παράγοντες αν και πολλοί υπολογίζουν τα μοντέλα Rasch ως μια κατηγορία από μόνη της η
οποία διαφέρει από τα μοντέλα με έναν παράγοντα Στις επόμενες παραγράφους θα
αναλύσουμε τα βασικά σημεία της Θεωρίας των Αποκρίσεων και ιδιαίτερα της ανάλυσης κατά
Rasch Στην Ελλάδα η θεωρία αυτή αναπτύχθηκε κατrsquo αρχάς στην ψυχολογική έρευνα με βάση
τις εργασίες του καθηγητή του Πανεπιστημίου του Harvard Γιώργου Σιδερίδη (Sideridis 2011) Ο
πρώτος Έλληνας παιδαγωγός (όχι ψυχολόγος) που έγραψε για τη θεωρία αυτή ήταν ο
καθηγητής του Τμήματος Φιλοσοφίας ndash Παιδαγωγικής ndash Ψυχολογίας του Πανεπιστημίου
Αθηνών Μιχάλης Κασσωτάκης στο βιβλίο του Η Αξιολόγηση της Επίδοσης των Μαθητών
(Κασσωτακης 2013)
Η Θεωρία των Αποκρίσεων όπως και η Κλασική Θεωρία δέχεται ότι υπάρχει μια λανθάνουσα
μεταβλητή η οποία μετριέται με τα ερωτήματα του τεστ (τα items) Αυτή η μεταβλητή
συμβολίζεται στην Θεωρία των Αποκρίσεων με Δέχεται επίσης η Θεωρία των Αποκρίσεων
ότι κάθε ερώτημα έχει και έναν βαθμό δυσκολίας ο οποίος επηρεάζει τη σωστή απάντηση σε
καθένα από αυτά Η δυσκολία του ερωτήματος συμβολίζεται με Η πιθανότητα να απαντήσει
κάποιος σωστά σε ένα θέμα εξαρτάται από την ικανότητά αλλά και την δυσκολία του θέματος
Ισχύει δηλαδή η εξής γραμμικη λογική Πιθανότητα ορθής απάντησης = ικανότητα
του υποψηφίου ndash δυσκολία του θέματος
Με την πιο πάνω λογική αν ένας μαθητής μέτριας ικανότητας n καταπιαστεί με ένα θέμα
μέτριας δυσκολίας i τότε 120579119899minus120575119894= 0 Στην περίπτωση αυτή ο μαθητής έχει ίσες πιθανότητες να
απαντήσει ή να μην απαντήσει στο ερώτημα και άρα η πιθανότητα σωστής απάντησης είναι 05
Αν η ικανότητα του μαθητή είναι μεγαλύτερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894gt0 και
ο μαθητής έχει πιθανότητα να απαντήσει στο ερώτημα μεγαλύτερη από 05 Αν η ικανότητα του
μαθητή είναι μικρότερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894lt0 και η πιθανότητα ορθής
απάντησης είναι μικρότερη από 05 Για παράδειγμα ας υποθέσουμε ότι ρωτήσαμε έναν αριθμό
μαθητών να μας γράψουν τις λέξεις laquoαπόraquo laquoαυτοκίνητοraquo laquoδιαδίκτυοraquo laquoκωλυσιεργίαraquo και
laquoαντενδείκνυταιraquo Η πιθανότητα να απαντήσει κάποιος ορθά σε κάποια από αυτές τις λέξεις
υπολογίζεται με βάση (α) το πώς έχουν απαντήσει οι υπόλοιποι εξεταζόμενοι στην ίδια λέξη και
(β) πώς έχει απαντήσει ο ίδιος εξεταζόμενος στις υπόλοιπες ερωτήσεις Η σωστή ή λάθος
απάντηση εξαρτάται από την ορθογραφική του ικανότητα μείον την δυσκολία της λέξης Ας
υποθέσουμε ότι ένας εξεταζόμενος μπορεί να γράψει ορθογραφημένα μια λέξη με πιθανότητα
40 τοις εκατό ή 040 Η πιθανότητα να μην γράψει ορθογραφημένα τη λέξη είναι το υπόλοιπο 60
τοις εκατό ή 060 αφού 1 040 060 Αυτή η τελευταία είναι laquoσυμπληρωματική πιθανότηταraquo
του 040 Αν η πιθανότητα ενός ενδεχομένου είναι p η συμπληρωματική είναι 1 p
ΟΙ ΛΟΓΙΣΤΙΚΕΣ ΜΟΝΑΔΕΣ (LOGIT)
Επειδή η πιθανότητα p είναι δύσκολο να μοντελοποιηθεί αφού παίρνει τιμές στο κλειστό
διάστημα μεταξύ του 0 και του 1 χρησιμοποιούμε συχνά στη στατιστική το κλάσμα της
πιθανότητας προς την συμπληρωματική της Για παράδειγμα αν ρίχνουμε ένα ζάρι με
πιθανότητα να κερδίσουμε 50 τοις εκατό ή 05 τα odds είναι 05 05
11 05 05
To odd λοιπόν είναι
1
p
p και είναι η πιθανότητα ενός ενδεχομένου προς τη συμπληρωματική της Τα κλάσμα αυτό
8
παίρνει τιμές από το 0 μέχρι θεωρητικά το συν άπειρο Όσο η πιθανότητα ενός ενδεχομένου
προσεγγίζει το μηδέν το κλάσμα προσεγγίζει το μηδέν Όσο η πιθανότητα προσεγγίζει τη
μονάδα το κλάσμα προσεγγίζει το συν άπειρο Στο παράδειγμα που είδαμε στην προηγούμενη
ενότητα ο το κλάσμα της πιθανότητας προς τη συμπληρωματική της θα ήταν
πιθανότητα ορθής απάντησης
πιθανότητα λανθασμένης απάντησης 040
066060
Για να μετατρέψουμε το κλάσμα πάλι σε
πιθανότητα εργαζόμαστε αντίστροφα και έχουμε ότι 066
0401 1 066
oddp
odd
Το κλάσμα της πιθανότητας προς τη συμπληρωματική της έχει πάντα θετικές τιμές Στον
Σφάλμα Το αρχείο προέλευσης της αναφοράς δεν βρέθηκε που ακολουθεί βλέπουμε στην
πρώτη γραμμή τις πιθανότητες από 001 ως 099 Στη δεύτερη γραμμή παρουσιάζονται τα odds
δηλαδή οι λόγοι των πιθανοτήτων που βρίσκονται στη πρώτη γραμμή προς τις αντίστοιχες
συμπληρωματικές πιθανότητες Στη τρίτη γραμμή τιμές βλέπουμε ξανά τις τιμές odds σε
δεκαδική μορφή να είναι μικρότερες της μονάδες για πιθανότητες μικρότερες του 05 και
μεγαλύτερες από τη μονάδα για πιθανότητες μεγαλύτερες του 05 του κλάσματος αυτού για
πιθανότητες από 001 ως 099 ή 99 τοις εκατό Στην τέταρτη γραμμή παρουσιάζονται οι φυσικοί
λογάριθμοι των odds δηλαδή ως δυνάμεις στις οποίες πρέπει να υψωθεί ο αριθμός e για να
δώσει την τιμή του odd Ο αριθμός e είναι ο 2718 Για το παράδειγμα που αναφέραμε
προηγουμένως έχουμε στην έβδομη στήλη του Πίνακας 1 ότι 041 066e
Πίνακας 1 Οdds (πιθανότητα προς τη συμπληρωματική της) και λογιστικές μονάδες
Πιθανότητα p 001 010 020 030 040 050 060 070 080 090
Odds 1
p
p 1
99
10
90
20
80
30
70
40
60
50
50
60
40
70
30
80
20
90
10
Τιμές των
odds
001 011 025 043 066 1 150 233 4 9
logit ln
1
p
p
-460 -220 -138 -084 -041 0 040 084 138 218
Με μαθηματικό συμβολισμό αυτό γράφεται ως ln1
py
p
και
1y pe
p
Στο δικό μας
παράδειγμα έχουμε 040066 e και συνεπώς ln(067) 040
Ο μετασχηματισμός αυτός όπως βλέπουμε στο Σχήμα 1 μετατρέπει την πιθανότητα στον
κάθετο άξονα η οποία είναι πάντα θετική και περιορίζεται στο διάστημα (0 1) σε λογιστικές
μονάδες που θεωρητικά παίρνουν τιμές από το πλην άπειρο στο συν άπειρο
9
Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά
τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία
δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008
Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες
10
Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία
11
ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ
Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία
Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα
12
Οι συγγραφείς
συνοψίζουν στη σελίδα
292 της εργασίας τους
ότι το ελληνικό
ορθογραφικό σύστημα
χαρακτηρίζεται από
πολυσήμαντη
αντιστοιχία
ταυτόχρονη
αντιστοιχία αλλά και
αναντιστοιχία μεταξύ
φθόγγων και
γραφημάτων Έτσι
καταλήγουν στο
συμπέρασμα ότι laquoη
ακριβής γραφή των
λέξεων εξαρτάται
εκτός από τη
φωνημική επιγνωση
του αναγνώστη και
από το
οπτικοορθογραφικό
του λεξικό και τη
μορφολογική του
επίγνωσηraquo
Οι συγγραφείς
παρουσιάζουν
στοιχεία για παρόμοιες
διδακτικές
παρεμβάσεις στην
Ελλάδα και στην δεξιά
στήλη της επόμενης
σελίδας 293
αναφέρονται στη δική
τους εργασία ως μέρος
μιας ευρύτερης
διαχρονικής μελέτης
που περιελάμβανε
πέντε διαδοχικές
μετρήσεις
13
Και η
βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας
επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός
ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση
θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι
laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός
τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για
το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η
αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια
αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα
ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια
14
θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν
ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι
αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια
αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ
έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν
βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό
και στο άλλο
15
Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία
ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον
πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα
χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι
συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους
συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη
και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που
είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα
1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος
16
τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της
κατανομής της ηλικίας
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ
Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα
laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό
τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες
περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές
ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να
πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα
Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι
ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την
ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε
μεγάλη θεωρητική και στατιστική σημασία
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
3
δομήσει το ίδιο σκορ διαφορετικά αλλά η εσωτερική εγκυρότητα και αξιοπιστία των αρχικών
ερωτημάτων δεν θα άλλαζε
Ένα άλλο σοβαρό ζήτημα σε σχέση με την κλασική θεωρία είναι ότι οι κλίμακες μέτρησης της
θεωρητικής κατασκευής πρέπει να είναι τουλάχιστον ίσων διαστημάτων και όχι τακτικών τιμών
ή πολύ περισσότερο διχοτομικές (βλ Linacre 2005) Κλίμακες ίσων διαστημάτων είναι αυτές στις
οποίες η κλίμακα μέτρησης έχει ίσα διαστήματα από το ένα σημείο στο άλλο Κλίμακα ίσων
διαστημάτων είναι για παράδειγμα μια κλίμακα που θα μετρούσε την ηλικία ενός μαθητή σε
μήνες ή μια κλίμακα που θα μετρούσε τον αριθμό των λέξεων ενός κειμένου Κλίμακες τακτικών
τιμών ή άνισων διαστημάτων από την άλλη μεριά είναι κλίμακες στις οποίες τα διαστήματα από
μία τιμή στην άλλη δεν είναι ίσα Τέτοιες κλίμακες έχουμε για παράδειγμα κατά την καταγραφή
θετικής ή αρνητικής άποψης σε μια έρευνα διερεύνησης της κοινής γνώμης στις οποίες οι
πιθανές απαντήσεις είναι του τύπου laquoελάχιστα ευχαριστημένοςraquo laquoαρκετά ευχαριστημένοςraquo
laquoπολύ ευχαριστημένοςraquo και laquoπάρα πολύ ευχαριστημένοςraquo Η απόσταση μεταξύ του laquoελάχιστα
ευχαριστημένοςraquo και του laquoαρκετά ευχαριστημένοςraquo δεν είναι ίση με την απόσταση μεταξύ του
laquoπολύ ευχαριστημένοςraquo και του laquoπάρα πολύ ευχαριστημένοςraquo Διχοτομική κλίμακα είναι αυτή
στην οποία οι πιθανές απαντήσεις είναι δύο και σε αντίθετες κατευθύνσεις μεταξύ τους το laquoναιraquo
και το laquoόχιraquo με βάση το αν πέτυχε κάποιος σε ένα τεστ το laquoσωστόraquo και το laquoλάθοςraquo στη γραφή
μιας λέξης το laquoευχαριστημένοςraquo και το laquoδυσαρεστημένοςraquo σε ένα ερωτηματολόγιο κλπ
Η ανάλυση δεδομένων τακτικών τιμών επηρεάζεται από το εύρος των διαθέσιμων επιλογών
Πράγματι τα αποτελέσματα της ανάλυσης είναι πολύ διαφορετικά αν η κλίμακα που
χρησιμοποιούμε έχει λίγες ή περισσότερες πιθανές κατηγορίες Άλλη συσχέτιση έχουν για
παράδειγμα κλίμακες με τέσσερα άνισα διαστήματα και άλλη συσχέτιση έχουν κλίμακες με
οκτώ άνισα διαστήματα Άλλη συμπεριφορά έχουν οι κλίμακες στις οποίες υπάρχει κάποια
μεσαία ή laquoουδέτερηraquo κατηγορία (πχ laquoούτε ευχαριστημένος ούτε δυσαρεστημένοςraquo) και άλλη
συμπεριφορά έχουν οι κλίμακες οι οποίες κατευθύνουν αναγκαστικά τον ανταποκρινόμενο είτε
προς την πλευρά μιας γενικότερης ικανοποίησης είτε προς την πλευρά μιας γενικότερης μη
ικανοποίησης χωρίς τη δυνατότητα κάποιας ουδέτερης ή μεσαίας επιλογής Οι κλίμακες
διαφέρουν επίσης ως προς την ύπαρξη κάποιας laquoμηδενικήraquo κατηγορίας όπως θα ήταν το
laquoκαθόλου ευχαριστημένοςraquo το οποίο διαφέρει σε τεράστιο βαθμό από το laquoλίγο ευχαριστημένοςraquo
και από το υπόλοιπο μέρος της κλίμακας
ΛΑΝΘΑΝΟΥΣΕΣ ΜΕΤΑΒΛΗΤΕΣ ΚΑΙ ΑΝΑΛΥΣΗ ΠΑΡΑΓΟΝΤΩΝ
Στο πλαίσιο της κλασικής θεωρίας των μετρήσεων εντάσσονται και κάποιες τεχνικές ανάλυσης
με τις οποίες οι ερευνητές μετρούν λανθάνουσες μεταβλητές δηλαδή μεταβλητές που δεν
παρατηρούνται ευθέως Τέτοιες μεταβλητές έχουν να κάνουν για παράδειγμα με τις στάσεις
και τις προσδοκίες των ανθρώπων τις γνώσεις τους τις συμπεριφορές τους τις δεξιότητές τους
Διάφοροι μελετητές έχουν εκφράσει διαφορετικές απόψεις για το πώς τελικά θα έπρεπε να
εννοούνται οι λανθάνουσες μεταβλητές στην ψυχολογική αλλά και την παιδαγωγική και την
κοινωνική έρευνα Ο Bollen (2002) έχει συγκεντρώσει κριτικά πολλές κατηγορίες ορισμών πριν
δώσει τελικά τον δικό του σύμφωνα με τον οποίο laquoμια τυχαία ή μη τυχαία μεταβλητή
ονομάζεται ldquoλανθάνουσαrdquo όταν κάποιες από τις παρατηρήσεις της δεν πραγματώνονται σε ένα
ορισμένο δείγμαraquo (Bollen ό π 612)
Βασική ιδέα στην κλασική θεωρία της μέτρησης είναι ότι οι παρατηρήσεις συνδέονται με ένα
σύνολο λανθανουσών μεταβλητών οι οποίες έχουν τη μορφή κοινών παραγόντων Επιδίωξη
4
της ανάλυσης είναι να εκφραστούν οι παρατηρήσεις (έστω 1x ως px ) με τους κοινούς αυτούς
παράγοντες 1f ως qf αφού φυσικά αυτοί πρώτα αναγνωριστούν τόσο ως προς τον αριθμό τους
όσο και ως προς τη φύση τους Αν φυσικά υπάρχει μια εκ των προτέρων θεωρία για τον αριθμό
και τη φύση αυτών των παραγόντων τότε η θεωρία αυτή τίθεται υπό δοκιμασία με βάση τα
δεδομένα που συλλέγονται Στις παρακάτω εκφράσεις τα είναι οι συντελεστές των
παραγόντων f ενώ τα u είναι το μέρος των x που δεν εξηγείται από τους κοινούς παράγοντες
Τα i είναι κάποιες ποσότητες για την περίπτωση που τα f είναι μηδέν ενώ τα i είναι οι
συντελεστές των f Οι παρακάτω εξισώσεις θυμίζουν γραμμική παλινδρόμηση μόνο που τώρα
τα f δεν είναι laquoανεξάρτητες μεταβλητέςraquo Στην ανάλυση παραγόντων τα ίδια τα δεδομένα θα
ορίσουν τον αριθμό και τη φύση των f
1 1 11 1 12 2 1 1
2 2 21 12 22 2 2 2
1 1 2 2
q q
q
p p p p pq p
x f f f u
x f f u
x f f u
Οι παραπάνω σχέσεις γράφονται με μορφή πινάκων ως x =μ + Λf + u Τα 1 px x αφορούν p
παρατηρήσεις σε έναν μόνο μέλος του δείγματος Για ένα δείγμα μεγέθους n η προηγούμενη
ισότητα γράφεται i i ix =μ + Λf + u με 12i n
Στην πιο πάνω έκφραση τα μ είναι οι τιμές όταν οι παράγοντες η προσδοκία των παραγόντων
είναι μηδέν δηλαδή ( )E x όταν 1 2
0q
f f f Το μη εξηγούμενο μέρος δηλαδή τα u είναι
ανεξάρτητο από το κοινό μέρος δηλαδή τα f δηλαδή η συνδιακύμανση cov( ) 0r su f Ο μέσος
όρος των u είναι μηδέν ( ) 0E u Τέλος ο πίνακας διακυμάνσεων-συνδιακυμάνσεων των u είναι
διαγώνιος cov( ) u Ψ με τη διακύμανση στη διαγώνιο και τις συνδιακυμάνσεις μηδέν Όταν
λέμε ότι ένας πίνακας είναι laquoδιαγώνιοςraquo εννοούμε ότι δεν υπάρχει σχέση μεταξύ των u Για δύο
μόνο u η κατανομή θα έμοιαζε με το αριστερό τμήμα στο Σφάλμα Το αρχείο προέλευσης της
αναφοράς δεν βρέθηκε σελ Σφάλμα Δεν έχει οριστεί σελιδοδείκτης Για περισσότερα u η
κατανομή θα είχε περισσότερες διαστάσεις
Έχουμε λοιπόν ότι τα u και οι παράγοντες f είναι ανεξάρτητοι μεταξύ τους Έχουμε επίσης
ότι ο Ψ είναι διαγώνιος cov( )u Ψ καθώς και ότι cov(f) = I (όπου I ο μοναδιαίος πίνακας) Με
όλα αυτά υπόψη ο πίνακας διακυνάνσεων-συνδιακυμάνσεων των x είναι Σ και είναι
cov( )x ΤΣ = ΛΛ +Ψ
Αντιστρόφως αν ο πίνακας Σ μπορεί να γραφτεί ως ΤΛΛ + Ψ τότε υπάρχουν κοινοί
παράγοντες f
Η γενικότερη ιδέα της εύρεσης ενός αριθμού κοινών λανθανουσών μεταβλητών οι οποίες από
κοινού laquoεξηγούνraquo μέρος της διακύμανσης στα x αποτελεί την ουσία της ανάλυσης παραγόντων
και είναι μια βασική κατάκτηση της κλασικής θεωρίας των μετρήσεων Η διακύμανση που από
κοινού εξηγούν οι κοινοί παράγοντες συμβολίζεται με 2h
5
Η συνολική διακύμανση στα x είναι 2
1
k
ij ij
j
u
Η ποσότητα 2 2
1
k
i ij
j
h
ονομάζεται
ldquocommunalityrdquo και όπως είπαμε είναι η διακύμανση που επεξηγείται από τους κοινούς
παράγοντες Οι κοινοί αυτοί παράγοντες θα μπορούσαν θεωρητικά να εξηγήσουν όλη τη
διακύμανση στα x αν το πλήθος τους ήταν ίσο με το πλήθος των x Στη περίπτωση αυτή όμως
δεν θα είχε νόημα η ανάλυση παραγόντων διότι θα επρόκειτο στην ουσία για μια διαφορετική
έκφραση των ίδιων μεταβλητών Στην ουσία αυτό που θέλουμε είναι να μειώνουμε τον αριθμό
των παρατηρούμενων μεταβλητών σε έναν χώρο λιγότερων διαστάσεων Άρα στην ανάλυση
παραγόντων τα f είναι πάντα λιγότερα από τα x
Οι συντελεστές των f μπορεί να είναι διαφορετικοί και θεωρητικά υπάρχουν πολλοί
ισοδύναμοι πίνακες Λ Σε μια διερευνητική ανάλυση παραγόντων είναι στο χέρι των ερευνητών
να επιλέξουν κατάλληλους συντελεστές των f θέτοντας περιορισμούς στις διακυμάνσεις μέσω
κατάλληλων αλγόριθμων όπως ο Varimax ή o Oblimim Για να υπολογιστούν τα (ας
υποθέσουμε ότι ο αριθμός των f έχει ήδη καθοριστεί) υπάρχουν δύο γνωστές μέθοδοι στη
βιβλιογραφία η μέθοδος της μέγιστης πιθανοφάνειας και η μέθοδος των κύριων παραγόντων
Στην πρώτη η οποία είναι μέθοδος που διευκολύνθηκε από τους σημερινούς γρήγορους
υπολογιστές μεγιστοποιούμε τη πιθανοφάνεια του Λ ως προς τον Ψ Διάφοροι στατιστικοί
δίνουν την ποσότητα που μεγιστοποιούμε με τη μέθοδο αυτή (βλ Kreiner amp Christensen 2014
Stoica amp Jansson 2009 Thomson 1980) Ως λογαριθμική πιθανοφάνεια είναι
1
1
1logL log ( ) ( )
2 2
n
i
n
i iΣ x - μ Σ x - μ
Τέλος στην εκπαιδευτική έρευνα χρησιμοποιείται πολλές φορές εναλλακτικά προς την ανάλυση
παραγόντων η ανάλυση κυρίων συνιστωσών (βλ Kellow 2006 Smith 2002) Η ανάλυση κυρίων
συνιστωσών όμως δεν ε ίναι ανάλυση παραγόντων αλλά όπως λέει το όνομά της
συνιστωσών δηλαδή ένας γραμμικός μαθηματικός μετασχηματισμός των δεδομένων σε έναν
μικρότερο αριθμό διαστάσεων Όταν δε οι συντελεστές των συνιστωσών αλλάζουν ώστε αυτές
να αποκτήσουν ουσιαστικότερη σχέση με τα αρχικά δεδομένα τότε οι συνιστώσες δεν είναι
laquoκύριεςraquo
Παρόλα αυτά η δομή που θέτει η ανάλυση κυρίων συνιστωσών στα δεδομένα μοιάζει με τη δομή
που θέτει στα δεδομένα η ανάλυση παραγόντων Η δομή των k κυρίων συνιστωσών είναι
i i ix =μ +Γk + e όπου ο πίνακας Γ είναι ο πίνακας των συντελεστών και ie τα υπόλοιπα Η διαφορά
όμως της ανάλυσης παραγόντων από την ανάλυση κύριων συνιστωσών είναι ότι στην ανάλυση
παραγόντων ο πίνακας cov( )u είναι διαγώνιος ενώ στην ανάλυση κυρίων συνιστωσών ο
αντίστοιχος πίνακας cov( )i
e δεν είναι διαγώνιος Έτσι οι σκοποί της ανάλυσης συνιστωσών και
της ανάλυσης παραγόντων διαφέρουν ελαφρώς Στην ανάλυση συνιστωσών έχουμε τη βέλτιστη
δυνατή εξερεύνηση των διακυμάνσεων των ix ενώ στην ανάλυση παραγόντων εξερευνούμε τις
συνάφειες και τις συνδιακυμάνσεις Στην πράξη η ανάλυση παραγόντων και η ανάλυση κύριων
συνιστωσών δίνουν αποτελέσματα που δεν διαφέρουν εντυπωσιακά ιδιαίτερα αν οι
διακυμάνσεις είναι μικρές Στη θεωρητική περίπτωση που 0e u τα αποτελέσματά της
ανάλυσης παραγόντων και της ανάλυσης κυρίων συνιστωσών θα ταυτίζονταν Κάτι τέτοιο όμως
6
δεν είναι ρεαλιστικό Και οι δύο τεχνικές πάντως επειδή βασίζονται σε διακυμάνσεις ή
συνάφειες απαιτούν κλίμακες ίσων διαστημάτων αν και τελευταία έχουν αναπτυχθεί τεχνικές
για αντίστοιχες αναλύσεις με τακτικές τιμές
Η νέα θεωρία των μετρήσεων
Η ΠΡΟΣΕΓΓΙΣΗ ΤΟΥ GEORG RASCH
Τα τελευταία χρόνια μια νέα θεωρία έχει προταθεί για τη ψυχολογική μέτρηση η οποία
υπόσχεται ότι ξεπερνάει πολλούς από τους περιορισμούς της κλασικής θεωρίας που είδαμε στις
προηγούμενες παραγράφους H θεωρία αυτή είναι η Item Response Theory (IRT) δηλαδή η
Θεωρία Ανάλυσης Αποκρίσεων ή σε ελεύθερη απόδοση η Νέα Ψυχομετρική Θεωρία Οι απαρχές
της θεωρίας αυτής ανιχνεύονται στο έτος 1943 στη δουλειά του Σκωτσέζου στατιστικού Derrick
Lawley ο οποίος εργαζόταν κοντά στον παιδαγωγό Godfrey Thomson σε ένα γραφείο στο
Moorey House του Πανεπιστημίου του Εδιμβούργου Βασική φιλοσοφία της εν λόγω θεωρίας
είναι ότι οι μετρήσεις των διαφόρων χαρακτηριστικών των ανθρώπων εξαρτώνται τόσο από
αυτά που θέλουμε να μετρήσουμε όσο και από τα χαρακτηριστικά των θεμάτων των τεστ με τα
οποία γίνεται η μέτρηση Έτσι με τη νέα θεωρία μετριέται ταυτοχρόνως το υποκείμενο και το
εργαλείο της μέτρησης Αυτή τη θεωρία χρησιμοποίησαν οι Σιδεριδης κά (2008) στην έρευνα
που θα παρουσιάσουμε πιο κάτω
Μεγάλη ώθηση στη νέα θεωρία των μετρήσεων έδωσε ο Δανός μαθηματικός Georg Rasch ο
οποίος πρότεινε μοντέλα για διχοτομικές απαντήσεις τύπου laquoσωστόraquo - laquoλάθοςraquo Τα εν λόγω
μοντέλα πήραν το όνομά του όπως θα δούμε παρακάτω σε αυτό το κεφάλαιο Σημαντικήγια
τον τύπο αυτόν της μέτρησης ήταν επίσης και η συμβολή της Ιαπωνίδας μαθηματικού Fumiko
Samejima η οποία μελέτησε αντίστοιχες μεθόδους για περιπτώσεις που τα αποτελέσματα των
τεστ δεν έχουν μόνο δύο αλλά περισσότερες από δύο κατηγορίες (Samejima 1969) Οι Darrell Bock
και David Thissen από το Πανεπιστήμιο του Σικάγου αλλά και άλλοι ερευνητές όπως ο
Αυστριακός David Andrich εργάστηκαν ανεξάρτητα στην εν λόγω θεωρία και επέκτειναν την
ιδέα της Samejima ως προς την τελειοποίηση κατάλληλων αλγορίθμων για τον υπολογισμό
μοντέλων της θεωρίας αυτής για περιπτώσεις τεστ με πολλές κατηγορίες ενώ Gerhard Fischer
επέκτεινε προς την ίδια κατεύθυνση τα μοντέλα τύπου
Rasch Στην διάδοση της Θεωρίας των Αποκρίσεων
σημαντική υπήρξε και η συμβολή του Αμερικανού
φυσικού Benjamin Wright ο οποίος ήταν από τους
πρώτους που χρησιμοποίησαν ηλεκτρονικούς
υπολογιστές με λυχνίες και με την τεχνολογία του 1959
για τις ανάγκες υπολογισμού των παραμέτρων στην
ανάλυση δεδομένων μέσω Θεωρίας των Αποκρίσεων
Ο Wright συνεχίζει μέχρι σήμερα με τις σύγχρονες
υπολογιστικές δυνατότητες να εργάζεται με τη Item
Response Theory και να διαδίδει το λογισμικό Winsteps
για αναλύσεις κατά Rasch Έτσι λοιπόν έχουμε τρία
μοντέλα Θεωρίας Αποκρίσεων ανάλογα με τους
πόσους παράγοντες χειρίζονται (α) μοντέλα με ένα
Εικόνα 2 Ο Δανός Μαθηματικός Georg
Rasch (αριστερά) με τον φυσικό
Benjamin Wright πρωτοπόρο στη
χρήση των υπολογιστών για
ψυχομετρικές αναλύσεις
7
παράγοντα (ή μοντέλα Rasch) (β) μοντέλα με δύο παράγοντες και (γ) μοντέλα με τρεις
παράγοντες αν και πολλοί υπολογίζουν τα μοντέλα Rasch ως μια κατηγορία από μόνη της η
οποία διαφέρει από τα μοντέλα με έναν παράγοντα Στις επόμενες παραγράφους θα
αναλύσουμε τα βασικά σημεία της Θεωρίας των Αποκρίσεων και ιδιαίτερα της ανάλυσης κατά
Rasch Στην Ελλάδα η θεωρία αυτή αναπτύχθηκε κατrsquo αρχάς στην ψυχολογική έρευνα με βάση
τις εργασίες του καθηγητή του Πανεπιστημίου του Harvard Γιώργου Σιδερίδη (Sideridis 2011) Ο
πρώτος Έλληνας παιδαγωγός (όχι ψυχολόγος) που έγραψε για τη θεωρία αυτή ήταν ο
καθηγητής του Τμήματος Φιλοσοφίας ndash Παιδαγωγικής ndash Ψυχολογίας του Πανεπιστημίου
Αθηνών Μιχάλης Κασσωτάκης στο βιβλίο του Η Αξιολόγηση της Επίδοσης των Μαθητών
(Κασσωτακης 2013)
Η Θεωρία των Αποκρίσεων όπως και η Κλασική Θεωρία δέχεται ότι υπάρχει μια λανθάνουσα
μεταβλητή η οποία μετριέται με τα ερωτήματα του τεστ (τα items) Αυτή η μεταβλητή
συμβολίζεται στην Θεωρία των Αποκρίσεων με Δέχεται επίσης η Θεωρία των Αποκρίσεων
ότι κάθε ερώτημα έχει και έναν βαθμό δυσκολίας ο οποίος επηρεάζει τη σωστή απάντηση σε
καθένα από αυτά Η δυσκολία του ερωτήματος συμβολίζεται με Η πιθανότητα να απαντήσει
κάποιος σωστά σε ένα θέμα εξαρτάται από την ικανότητά αλλά και την δυσκολία του θέματος
Ισχύει δηλαδή η εξής γραμμικη λογική Πιθανότητα ορθής απάντησης = ικανότητα
του υποψηφίου ndash δυσκολία του θέματος
Με την πιο πάνω λογική αν ένας μαθητής μέτριας ικανότητας n καταπιαστεί με ένα θέμα
μέτριας δυσκολίας i τότε 120579119899minus120575119894= 0 Στην περίπτωση αυτή ο μαθητής έχει ίσες πιθανότητες να
απαντήσει ή να μην απαντήσει στο ερώτημα και άρα η πιθανότητα σωστής απάντησης είναι 05
Αν η ικανότητα του μαθητή είναι μεγαλύτερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894gt0 και
ο μαθητής έχει πιθανότητα να απαντήσει στο ερώτημα μεγαλύτερη από 05 Αν η ικανότητα του
μαθητή είναι μικρότερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894lt0 και η πιθανότητα ορθής
απάντησης είναι μικρότερη από 05 Για παράδειγμα ας υποθέσουμε ότι ρωτήσαμε έναν αριθμό
μαθητών να μας γράψουν τις λέξεις laquoαπόraquo laquoαυτοκίνητοraquo laquoδιαδίκτυοraquo laquoκωλυσιεργίαraquo και
laquoαντενδείκνυταιraquo Η πιθανότητα να απαντήσει κάποιος ορθά σε κάποια από αυτές τις λέξεις
υπολογίζεται με βάση (α) το πώς έχουν απαντήσει οι υπόλοιποι εξεταζόμενοι στην ίδια λέξη και
(β) πώς έχει απαντήσει ο ίδιος εξεταζόμενος στις υπόλοιπες ερωτήσεις Η σωστή ή λάθος
απάντηση εξαρτάται από την ορθογραφική του ικανότητα μείον την δυσκολία της λέξης Ας
υποθέσουμε ότι ένας εξεταζόμενος μπορεί να γράψει ορθογραφημένα μια λέξη με πιθανότητα
40 τοις εκατό ή 040 Η πιθανότητα να μην γράψει ορθογραφημένα τη λέξη είναι το υπόλοιπο 60
τοις εκατό ή 060 αφού 1 040 060 Αυτή η τελευταία είναι laquoσυμπληρωματική πιθανότηταraquo
του 040 Αν η πιθανότητα ενός ενδεχομένου είναι p η συμπληρωματική είναι 1 p
ΟΙ ΛΟΓΙΣΤΙΚΕΣ ΜΟΝΑΔΕΣ (LOGIT)
Επειδή η πιθανότητα p είναι δύσκολο να μοντελοποιηθεί αφού παίρνει τιμές στο κλειστό
διάστημα μεταξύ του 0 και του 1 χρησιμοποιούμε συχνά στη στατιστική το κλάσμα της
πιθανότητας προς την συμπληρωματική της Για παράδειγμα αν ρίχνουμε ένα ζάρι με
πιθανότητα να κερδίσουμε 50 τοις εκατό ή 05 τα odds είναι 05 05
11 05 05
To odd λοιπόν είναι
1
p
p και είναι η πιθανότητα ενός ενδεχομένου προς τη συμπληρωματική της Τα κλάσμα αυτό
8
παίρνει τιμές από το 0 μέχρι θεωρητικά το συν άπειρο Όσο η πιθανότητα ενός ενδεχομένου
προσεγγίζει το μηδέν το κλάσμα προσεγγίζει το μηδέν Όσο η πιθανότητα προσεγγίζει τη
μονάδα το κλάσμα προσεγγίζει το συν άπειρο Στο παράδειγμα που είδαμε στην προηγούμενη
ενότητα ο το κλάσμα της πιθανότητας προς τη συμπληρωματική της θα ήταν
πιθανότητα ορθής απάντησης
πιθανότητα λανθασμένης απάντησης 040
066060
Για να μετατρέψουμε το κλάσμα πάλι σε
πιθανότητα εργαζόμαστε αντίστροφα και έχουμε ότι 066
0401 1 066
oddp
odd
Το κλάσμα της πιθανότητας προς τη συμπληρωματική της έχει πάντα θετικές τιμές Στον
Σφάλμα Το αρχείο προέλευσης της αναφοράς δεν βρέθηκε που ακολουθεί βλέπουμε στην
πρώτη γραμμή τις πιθανότητες από 001 ως 099 Στη δεύτερη γραμμή παρουσιάζονται τα odds
δηλαδή οι λόγοι των πιθανοτήτων που βρίσκονται στη πρώτη γραμμή προς τις αντίστοιχες
συμπληρωματικές πιθανότητες Στη τρίτη γραμμή τιμές βλέπουμε ξανά τις τιμές odds σε
δεκαδική μορφή να είναι μικρότερες της μονάδες για πιθανότητες μικρότερες του 05 και
μεγαλύτερες από τη μονάδα για πιθανότητες μεγαλύτερες του 05 του κλάσματος αυτού για
πιθανότητες από 001 ως 099 ή 99 τοις εκατό Στην τέταρτη γραμμή παρουσιάζονται οι φυσικοί
λογάριθμοι των odds δηλαδή ως δυνάμεις στις οποίες πρέπει να υψωθεί ο αριθμός e για να
δώσει την τιμή του odd Ο αριθμός e είναι ο 2718 Για το παράδειγμα που αναφέραμε
προηγουμένως έχουμε στην έβδομη στήλη του Πίνακας 1 ότι 041 066e
Πίνακας 1 Οdds (πιθανότητα προς τη συμπληρωματική της) και λογιστικές μονάδες
Πιθανότητα p 001 010 020 030 040 050 060 070 080 090
Odds 1
p
p 1
99
10
90
20
80
30
70
40
60
50
50
60
40
70
30
80
20
90
10
Τιμές των
odds
001 011 025 043 066 1 150 233 4 9
logit ln
1
p
p
-460 -220 -138 -084 -041 0 040 084 138 218
Με μαθηματικό συμβολισμό αυτό γράφεται ως ln1
py
p
και
1y pe
p
Στο δικό μας
παράδειγμα έχουμε 040066 e και συνεπώς ln(067) 040
Ο μετασχηματισμός αυτός όπως βλέπουμε στο Σχήμα 1 μετατρέπει την πιθανότητα στον
κάθετο άξονα η οποία είναι πάντα θετική και περιορίζεται στο διάστημα (0 1) σε λογιστικές
μονάδες που θεωρητικά παίρνουν τιμές από το πλην άπειρο στο συν άπειρο
9
Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά
τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία
δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008
Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες
10
Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία
11
ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ
Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία
Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα
12
Οι συγγραφείς
συνοψίζουν στη σελίδα
292 της εργασίας τους
ότι το ελληνικό
ορθογραφικό σύστημα
χαρακτηρίζεται από
πολυσήμαντη
αντιστοιχία
ταυτόχρονη
αντιστοιχία αλλά και
αναντιστοιχία μεταξύ
φθόγγων και
γραφημάτων Έτσι
καταλήγουν στο
συμπέρασμα ότι laquoη
ακριβής γραφή των
λέξεων εξαρτάται
εκτός από τη
φωνημική επιγνωση
του αναγνώστη και
από το
οπτικοορθογραφικό
του λεξικό και τη
μορφολογική του
επίγνωσηraquo
Οι συγγραφείς
παρουσιάζουν
στοιχεία για παρόμοιες
διδακτικές
παρεμβάσεις στην
Ελλάδα και στην δεξιά
στήλη της επόμενης
σελίδας 293
αναφέρονται στη δική
τους εργασία ως μέρος
μιας ευρύτερης
διαχρονικής μελέτης
που περιελάμβανε
πέντε διαδοχικές
μετρήσεις
13
Και η
βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας
επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός
ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση
θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι
laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός
τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για
το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η
αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια
αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα
ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια
14
θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν
ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι
αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια
αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ
έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν
βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό
και στο άλλο
15
Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία
ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον
πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα
χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι
συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους
συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη
και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που
είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα
1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος
16
τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της
κατανομής της ηλικίας
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ
Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα
laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό
τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες
περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές
ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να
πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα
Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι
ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την
ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε
μεγάλη θεωρητική και στατιστική σημασία
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
4
της ανάλυσης είναι να εκφραστούν οι παρατηρήσεις (έστω 1x ως px ) με τους κοινούς αυτούς
παράγοντες 1f ως qf αφού φυσικά αυτοί πρώτα αναγνωριστούν τόσο ως προς τον αριθμό τους
όσο και ως προς τη φύση τους Αν φυσικά υπάρχει μια εκ των προτέρων θεωρία για τον αριθμό
και τη φύση αυτών των παραγόντων τότε η θεωρία αυτή τίθεται υπό δοκιμασία με βάση τα
δεδομένα που συλλέγονται Στις παρακάτω εκφράσεις τα είναι οι συντελεστές των
παραγόντων f ενώ τα u είναι το μέρος των x που δεν εξηγείται από τους κοινούς παράγοντες
Τα i είναι κάποιες ποσότητες για την περίπτωση που τα f είναι μηδέν ενώ τα i είναι οι
συντελεστές των f Οι παρακάτω εξισώσεις θυμίζουν γραμμική παλινδρόμηση μόνο που τώρα
τα f δεν είναι laquoανεξάρτητες μεταβλητέςraquo Στην ανάλυση παραγόντων τα ίδια τα δεδομένα θα
ορίσουν τον αριθμό και τη φύση των f
1 1 11 1 12 2 1 1
2 2 21 12 22 2 2 2
1 1 2 2
q q
q
p p p p pq p
x f f f u
x f f u
x f f u
Οι παραπάνω σχέσεις γράφονται με μορφή πινάκων ως x =μ + Λf + u Τα 1 px x αφορούν p
παρατηρήσεις σε έναν μόνο μέλος του δείγματος Για ένα δείγμα μεγέθους n η προηγούμενη
ισότητα γράφεται i i ix =μ + Λf + u με 12i n
Στην πιο πάνω έκφραση τα μ είναι οι τιμές όταν οι παράγοντες η προσδοκία των παραγόντων
είναι μηδέν δηλαδή ( )E x όταν 1 2
0q
f f f Το μη εξηγούμενο μέρος δηλαδή τα u είναι
ανεξάρτητο από το κοινό μέρος δηλαδή τα f δηλαδή η συνδιακύμανση cov( ) 0r su f Ο μέσος
όρος των u είναι μηδέν ( ) 0E u Τέλος ο πίνακας διακυμάνσεων-συνδιακυμάνσεων των u είναι
διαγώνιος cov( ) u Ψ με τη διακύμανση στη διαγώνιο και τις συνδιακυμάνσεις μηδέν Όταν
λέμε ότι ένας πίνακας είναι laquoδιαγώνιοςraquo εννοούμε ότι δεν υπάρχει σχέση μεταξύ των u Για δύο
μόνο u η κατανομή θα έμοιαζε με το αριστερό τμήμα στο Σφάλμα Το αρχείο προέλευσης της
αναφοράς δεν βρέθηκε σελ Σφάλμα Δεν έχει οριστεί σελιδοδείκτης Για περισσότερα u η
κατανομή θα είχε περισσότερες διαστάσεις
Έχουμε λοιπόν ότι τα u και οι παράγοντες f είναι ανεξάρτητοι μεταξύ τους Έχουμε επίσης
ότι ο Ψ είναι διαγώνιος cov( )u Ψ καθώς και ότι cov(f) = I (όπου I ο μοναδιαίος πίνακας) Με
όλα αυτά υπόψη ο πίνακας διακυνάνσεων-συνδιακυμάνσεων των x είναι Σ και είναι
cov( )x ΤΣ = ΛΛ +Ψ
Αντιστρόφως αν ο πίνακας Σ μπορεί να γραφτεί ως ΤΛΛ + Ψ τότε υπάρχουν κοινοί
παράγοντες f
Η γενικότερη ιδέα της εύρεσης ενός αριθμού κοινών λανθανουσών μεταβλητών οι οποίες από
κοινού laquoεξηγούνraquo μέρος της διακύμανσης στα x αποτελεί την ουσία της ανάλυσης παραγόντων
και είναι μια βασική κατάκτηση της κλασικής θεωρίας των μετρήσεων Η διακύμανση που από
κοινού εξηγούν οι κοινοί παράγοντες συμβολίζεται με 2h
5
Η συνολική διακύμανση στα x είναι 2
1
k
ij ij
j
u
Η ποσότητα 2 2
1
k
i ij
j
h
ονομάζεται
ldquocommunalityrdquo και όπως είπαμε είναι η διακύμανση που επεξηγείται από τους κοινούς
παράγοντες Οι κοινοί αυτοί παράγοντες θα μπορούσαν θεωρητικά να εξηγήσουν όλη τη
διακύμανση στα x αν το πλήθος τους ήταν ίσο με το πλήθος των x Στη περίπτωση αυτή όμως
δεν θα είχε νόημα η ανάλυση παραγόντων διότι θα επρόκειτο στην ουσία για μια διαφορετική
έκφραση των ίδιων μεταβλητών Στην ουσία αυτό που θέλουμε είναι να μειώνουμε τον αριθμό
των παρατηρούμενων μεταβλητών σε έναν χώρο λιγότερων διαστάσεων Άρα στην ανάλυση
παραγόντων τα f είναι πάντα λιγότερα από τα x
Οι συντελεστές των f μπορεί να είναι διαφορετικοί και θεωρητικά υπάρχουν πολλοί
ισοδύναμοι πίνακες Λ Σε μια διερευνητική ανάλυση παραγόντων είναι στο χέρι των ερευνητών
να επιλέξουν κατάλληλους συντελεστές των f θέτοντας περιορισμούς στις διακυμάνσεις μέσω
κατάλληλων αλγόριθμων όπως ο Varimax ή o Oblimim Για να υπολογιστούν τα (ας
υποθέσουμε ότι ο αριθμός των f έχει ήδη καθοριστεί) υπάρχουν δύο γνωστές μέθοδοι στη
βιβλιογραφία η μέθοδος της μέγιστης πιθανοφάνειας και η μέθοδος των κύριων παραγόντων
Στην πρώτη η οποία είναι μέθοδος που διευκολύνθηκε από τους σημερινούς γρήγορους
υπολογιστές μεγιστοποιούμε τη πιθανοφάνεια του Λ ως προς τον Ψ Διάφοροι στατιστικοί
δίνουν την ποσότητα που μεγιστοποιούμε με τη μέθοδο αυτή (βλ Kreiner amp Christensen 2014
Stoica amp Jansson 2009 Thomson 1980) Ως λογαριθμική πιθανοφάνεια είναι
1
1
1logL log ( ) ( )
2 2
n
i
n
i iΣ x - μ Σ x - μ
Τέλος στην εκπαιδευτική έρευνα χρησιμοποιείται πολλές φορές εναλλακτικά προς την ανάλυση
παραγόντων η ανάλυση κυρίων συνιστωσών (βλ Kellow 2006 Smith 2002) Η ανάλυση κυρίων
συνιστωσών όμως δεν ε ίναι ανάλυση παραγόντων αλλά όπως λέει το όνομά της
συνιστωσών δηλαδή ένας γραμμικός μαθηματικός μετασχηματισμός των δεδομένων σε έναν
μικρότερο αριθμό διαστάσεων Όταν δε οι συντελεστές των συνιστωσών αλλάζουν ώστε αυτές
να αποκτήσουν ουσιαστικότερη σχέση με τα αρχικά δεδομένα τότε οι συνιστώσες δεν είναι
laquoκύριεςraquo
Παρόλα αυτά η δομή που θέτει η ανάλυση κυρίων συνιστωσών στα δεδομένα μοιάζει με τη δομή
που θέτει στα δεδομένα η ανάλυση παραγόντων Η δομή των k κυρίων συνιστωσών είναι
i i ix =μ +Γk + e όπου ο πίνακας Γ είναι ο πίνακας των συντελεστών και ie τα υπόλοιπα Η διαφορά
όμως της ανάλυσης παραγόντων από την ανάλυση κύριων συνιστωσών είναι ότι στην ανάλυση
παραγόντων ο πίνακας cov( )u είναι διαγώνιος ενώ στην ανάλυση κυρίων συνιστωσών ο
αντίστοιχος πίνακας cov( )i
e δεν είναι διαγώνιος Έτσι οι σκοποί της ανάλυσης συνιστωσών και
της ανάλυσης παραγόντων διαφέρουν ελαφρώς Στην ανάλυση συνιστωσών έχουμε τη βέλτιστη
δυνατή εξερεύνηση των διακυμάνσεων των ix ενώ στην ανάλυση παραγόντων εξερευνούμε τις
συνάφειες και τις συνδιακυμάνσεις Στην πράξη η ανάλυση παραγόντων και η ανάλυση κύριων
συνιστωσών δίνουν αποτελέσματα που δεν διαφέρουν εντυπωσιακά ιδιαίτερα αν οι
διακυμάνσεις είναι μικρές Στη θεωρητική περίπτωση που 0e u τα αποτελέσματά της
ανάλυσης παραγόντων και της ανάλυσης κυρίων συνιστωσών θα ταυτίζονταν Κάτι τέτοιο όμως
6
δεν είναι ρεαλιστικό Και οι δύο τεχνικές πάντως επειδή βασίζονται σε διακυμάνσεις ή
συνάφειες απαιτούν κλίμακες ίσων διαστημάτων αν και τελευταία έχουν αναπτυχθεί τεχνικές
για αντίστοιχες αναλύσεις με τακτικές τιμές
Η νέα θεωρία των μετρήσεων
Η ΠΡΟΣΕΓΓΙΣΗ ΤΟΥ GEORG RASCH
Τα τελευταία χρόνια μια νέα θεωρία έχει προταθεί για τη ψυχολογική μέτρηση η οποία
υπόσχεται ότι ξεπερνάει πολλούς από τους περιορισμούς της κλασικής θεωρίας που είδαμε στις
προηγούμενες παραγράφους H θεωρία αυτή είναι η Item Response Theory (IRT) δηλαδή η
Θεωρία Ανάλυσης Αποκρίσεων ή σε ελεύθερη απόδοση η Νέα Ψυχομετρική Θεωρία Οι απαρχές
της θεωρίας αυτής ανιχνεύονται στο έτος 1943 στη δουλειά του Σκωτσέζου στατιστικού Derrick
Lawley ο οποίος εργαζόταν κοντά στον παιδαγωγό Godfrey Thomson σε ένα γραφείο στο
Moorey House του Πανεπιστημίου του Εδιμβούργου Βασική φιλοσοφία της εν λόγω θεωρίας
είναι ότι οι μετρήσεις των διαφόρων χαρακτηριστικών των ανθρώπων εξαρτώνται τόσο από
αυτά που θέλουμε να μετρήσουμε όσο και από τα χαρακτηριστικά των θεμάτων των τεστ με τα
οποία γίνεται η μέτρηση Έτσι με τη νέα θεωρία μετριέται ταυτοχρόνως το υποκείμενο και το
εργαλείο της μέτρησης Αυτή τη θεωρία χρησιμοποίησαν οι Σιδεριδης κά (2008) στην έρευνα
που θα παρουσιάσουμε πιο κάτω
Μεγάλη ώθηση στη νέα θεωρία των μετρήσεων έδωσε ο Δανός μαθηματικός Georg Rasch ο
οποίος πρότεινε μοντέλα για διχοτομικές απαντήσεις τύπου laquoσωστόraquo - laquoλάθοςraquo Τα εν λόγω
μοντέλα πήραν το όνομά του όπως θα δούμε παρακάτω σε αυτό το κεφάλαιο Σημαντικήγια
τον τύπο αυτόν της μέτρησης ήταν επίσης και η συμβολή της Ιαπωνίδας μαθηματικού Fumiko
Samejima η οποία μελέτησε αντίστοιχες μεθόδους για περιπτώσεις που τα αποτελέσματα των
τεστ δεν έχουν μόνο δύο αλλά περισσότερες από δύο κατηγορίες (Samejima 1969) Οι Darrell Bock
και David Thissen από το Πανεπιστήμιο του Σικάγου αλλά και άλλοι ερευνητές όπως ο
Αυστριακός David Andrich εργάστηκαν ανεξάρτητα στην εν λόγω θεωρία και επέκτειναν την
ιδέα της Samejima ως προς την τελειοποίηση κατάλληλων αλγορίθμων για τον υπολογισμό
μοντέλων της θεωρίας αυτής για περιπτώσεις τεστ με πολλές κατηγορίες ενώ Gerhard Fischer
επέκτεινε προς την ίδια κατεύθυνση τα μοντέλα τύπου
Rasch Στην διάδοση της Θεωρίας των Αποκρίσεων
σημαντική υπήρξε και η συμβολή του Αμερικανού
φυσικού Benjamin Wright ο οποίος ήταν από τους
πρώτους που χρησιμοποίησαν ηλεκτρονικούς
υπολογιστές με λυχνίες και με την τεχνολογία του 1959
για τις ανάγκες υπολογισμού των παραμέτρων στην
ανάλυση δεδομένων μέσω Θεωρίας των Αποκρίσεων
Ο Wright συνεχίζει μέχρι σήμερα με τις σύγχρονες
υπολογιστικές δυνατότητες να εργάζεται με τη Item
Response Theory και να διαδίδει το λογισμικό Winsteps
για αναλύσεις κατά Rasch Έτσι λοιπόν έχουμε τρία
μοντέλα Θεωρίας Αποκρίσεων ανάλογα με τους
πόσους παράγοντες χειρίζονται (α) μοντέλα με ένα
Εικόνα 2 Ο Δανός Μαθηματικός Georg
Rasch (αριστερά) με τον φυσικό
Benjamin Wright πρωτοπόρο στη
χρήση των υπολογιστών για
ψυχομετρικές αναλύσεις
7
παράγοντα (ή μοντέλα Rasch) (β) μοντέλα με δύο παράγοντες και (γ) μοντέλα με τρεις
παράγοντες αν και πολλοί υπολογίζουν τα μοντέλα Rasch ως μια κατηγορία από μόνη της η
οποία διαφέρει από τα μοντέλα με έναν παράγοντα Στις επόμενες παραγράφους θα
αναλύσουμε τα βασικά σημεία της Θεωρίας των Αποκρίσεων και ιδιαίτερα της ανάλυσης κατά
Rasch Στην Ελλάδα η θεωρία αυτή αναπτύχθηκε κατrsquo αρχάς στην ψυχολογική έρευνα με βάση
τις εργασίες του καθηγητή του Πανεπιστημίου του Harvard Γιώργου Σιδερίδη (Sideridis 2011) Ο
πρώτος Έλληνας παιδαγωγός (όχι ψυχολόγος) που έγραψε για τη θεωρία αυτή ήταν ο
καθηγητής του Τμήματος Φιλοσοφίας ndash Παιδαγωγικής ndash Ψυχολογίας του Πανεπιστημίου
Αθηνών Μιχάλης Κασσωτάκης στο βιβλίο του Η Αξιολόγηση της Επίδοσης των Μαθητών
(Κασσωτακης 2013)
Η Θεωρία των Αποκρίσεων όπως και η Κλασική Θεωρία δέχεται ότι υπάρχει μια λανθάνουσα
μεταβλητή η οποία μετριέται με τα ερωτήματα του τεστ (τα items) Αυτή η μεταβλητή
συμβολίζεται στην Θεωρία των Αποκρίσεων με Δέχεται επίσης η Θεωρία των Αποκρίσεων
ότι κάθε ερώτημα έχει και έναν βαθμό δυσκολίας ο οποίος επηρεάζει τη σωστή απάντηση σε
καθένα από αυτά Η δυσκολία του ερωτήματος συμβολίζεται με Η πιθανότητα να απαντήσει
κάποιος σωστά σε ένα θέμα εξαρτάται από την ικανότητά αλλά και την δυσκολία του θέματος
Ισχύει δηλαδή η εξής γραμμικη λογική Πιθανότητα ορθής απάντησης = ικανότητα
του υποψηφίου ndash δυσκολία του θέματος
Με την πιο πάνω λογική αν ένας μαθητής μέτριας ικανότητας n καταπιαστεί με ένα θέμα
μέτριας δυσκολίας i τότε 120579119899minus120575119894= 0 Στην περίπτωση αυτή ο μαθητής έχει ίσες πιθανότητες να
απαντήσει ή να μην απαντήσει στο ερώτημα και άρα η πιθανότητα σωστής απάντησης είναι 05
Αν η ικανότητα του μαθητή είναι μεγαλύτερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894gt0 και
ο μαθητής έχει πιθανότητα να απαντήσει στο ερώτημα μεγαλύτερη από 05 Αν η ικανότητα του
μαθητή είναι μικρότερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894lt0 και η πιθανότητα ορθής
απάντησης είναι μικρότερη από 05 Για παράδειγμα ας υποθέσουμε ότι ρωτήσαμε έναν αριθμό
μαθητών να μας γράψουν τις λέξεις laquoαπόraquo laquoαυτοκίνητοraquo laquoδιαδίκτυοraquo laquoκωλυσιεργίαraquo και
laquoαντενδείκνυταιraquo Η πιθανότητα να απαντήσει κάποιος ορθά σε κάποια από αυτές τις λέξεις
υπολογίζεται με βάση (α) το πώς έχουν απαντήσει οι υπόλοιποι εξεταζόμενοι στην ίδια λέξη και
(β) πώς έχει απαντήσει ο ίδιος εξεταζόμενος στις υπόλοιπες ερωτήσεις Η σωστή ή λάθος
απάντηση εξαρτάται από την ορθογραφική του ικανότητα μείον την δυσκολία της λέξης Ας
υποθέσουμε ότι ένας εξεταζόμενος μπορεί να γράψει ορθογραφημένα μια λέξη με πιθανότητα
40 τοις εκατό ή 040 Η πιθανότητα να μην γράψει ορθογραφημένα τη λέξη είναι το υπόλοιπο 60
τοις εκατό ή 060 αφού 1 040 060 Αυτή η τελευταία είναι laquoσυμπληρωματική πιθανότηταraquo
του 040 Αν η πιθανότητα ενός ενδεχομένου είναι p η συμπληρωματική είναι 1 p
ΟΙ ΛΟΓΙΣΤΙΚΕΣ ΜΟΝΑΔΕΣ (LOGIT)
Επειδή η πιθανότητα p είναι δύσκολο να μοντελοποιηθεί αφού παίρνει τιμές στο κλειστό
διάστημα μεταξύ του 0 και του 1 χρησιμοποιούμε συχνά στη στατιστική το κλάσμα της
πιθανότητας προς την συμπληρωματική της Για παράδειγμα αν ρίχνουμε ένα ζάρι με
πιθανότητα να κερδίσουμε 50 τοις εκατό ή 05 τα odds είναι 05 05
11 05 05
To odd λοιπόν είναι
1
p
p και είναι η πιθανότητα ενός ενδεχομένου προς τη συμπληρωματική της Τα κλάσμα αυτό
8
παίρνει τιμές από το 0 μέχρι θεωρητικά το συν άπειρο Όσο η πιθανότητα ενός ενδεχομένου
προσεγγίζει το μηδέν το κλάσμα προσεγγίζει το μηδέν Όσο η πιθανότητα προσεγγίζει τη
μονάδα το κλάσμα προσεγγίζει το συν άπειρο Στο παράδειγμα που είδαμε στην προηγούμενη
ενότητα ο το κλάσμα της πιθανότητας προς τη συμπληρωματική της θα ήταν
πιθανότητα ορθής απάντησης
πιθανότητα λανθασμένης απάντησης 040
066060
Για να μετατρέψουμε το κλάσμα πάλι σε
πιθανότητα εργαζόμαστε αντίστροφα και έχουμε ότι 066
0401 1 066
oddp
odd
Το κλάσμα της πιθανότητας προς τη συμπληρωματική της έχει πάντα θετικές τιμές Στον
Σφάλμα Το αρχείο προέλευσης της αναφοράς δεν βρέθηκε που ακολουθεί βλέπουμε στην
πρώτη γραμμή τις πιθανότητες από 001 ως 099 Στη δεύτερη γραμμή παρουσιάζονται τα odds
δηλαδή οι λόγοι των πιθανοτήτων που βρίσκονται στη πρώτη γραμμή προς τις αντίστοιχες
συμπληρωματικές πιθανότητες Στη τρίτη γραμμή τιμές βλέπουμε ξανά τις τιμές odds σε
δεκαδική μορφή να είναι μικρότερες της μονάδες για πιθανότητες μικρότερες του 05 και
μεγαλύτερες από τη μονάδα για πιθανότητες μεγαλύτερες του 05 του κλάσματος αυτού για
πιθανότητες από 001 ως 099 ή 99 τοις εκατό Στην τέταρτη γραμμή παρουσιάζονται οι φυσικοί
λογάριθμοι των odds δηλαδή ως δυνάμεις στις οποίες πρέπει να υψωθεί ο αριθμός e για να
δώσει την τιμή του odd Ο αριθμός e είναι ο 2718 Για το παράδειγμα που αναφέραμε
προηγουμένως έχουμε στην έβδομη στήλη του Πίνακας 1 ότι 041 066e
Πίνακας 1 Οdds (πιθανότητα προς τη συμπληρωματική της) και λογιστικές μονάδες
Πιθανότητα p 001 010 020 030 040 050 060 070 080 090
Odds 1
p
p 1
99
10
90
20
80
30
70
40
60
50
50
60
40
70
30
80
20
90
10
Τιμές των
odds
001 011 025 043 066 1 150 233 4 9
logit ln
1
p
p
-460 -220 -138 -084 -041 0 040 084 138 218
Με μαθηματικό συμβολισμό αυτό γράφεται ως ln1
py
p
και
1y pe
p
Στο δικό μας
παράδειγμα έχουμε 040066 e και συνεπώς ln(067) 040
Ο μετασχηματισμός αυτός όπως βλέπουμε στο Σχήμα 1 μετατρέπει την πιθανότητα στον
κάθετο άξονα η οποία είναι πάντα θετική και περιορίζεται στο διάστημα (0 1) σε λογιστικές
μονάδες που θεωρητικά παίρνουν τιμές από το πλην άπειρο στο συν άπειρο
9
Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά
τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία
δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008
Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες
10
Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία
11
ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ
Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία
Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα
12
Οι συγγραφείς
συνοψίζουν στη σελίδα
292 της εργασίας τους
ότι το ελληνικό
ορθογραφικό σύστημα
χαρακτηρίζεται από
πολυσήμαντη
αντιστοιχία
ταυτόχρονη
αντιστοιχία αλλά και
αναντιστοιχία μεταξύ
φθόγγων και
γραφημάτων Έτσι
καταλήγουν στο
συμπέρασμα ότι laquoη
ακριβής γραφή των
λέξεων εξαρτάται
εκτός από τη
φωνημική επιγνωση
του αναγνώστη και
από το
οπτικοορθογραφικό
του λεξικό και τη
μορφολογική του
επίγνωσηraquo
Οι συγγραφείς
παρουσιάζουν
στοιχεία για παρόμοιες
διδακτικές
παρεμβάσεις στην
Ελλάδα και στην δεξιά
στήλη της επόμενης
σελίδας 293
αναφέρονται στη δική
τους εργασία ως μέρος
μιας ευρύτερης
διαχρονικής μελέτης
που περιελάμβανε
πέντε διαδοχικές
μετρήσεις
13
Και η
βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας
επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός
ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση
θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι
laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός
τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για
το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η
αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια
αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα
ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια
14
θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν
ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι
αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια
αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ
έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν
βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό
και στο άλλο
15
Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία
ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον
πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα
χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι
συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους
συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη
και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που
είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα
1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος
16
τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της
κατανομής της ηλικίας
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ
Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα
laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό
τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες
περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές
ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να
πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα
Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι
ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την
ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε
μεγάλη θεωρητική και στατιστική σημασία
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
5
Η συνολική διακύμανση στα x είναι 2
1
k
ij ij
j
u
Η ποσότητα 2 2
1
k
i ij
j
h
ονομάζεται
ldquocommunalityrdquo και όπως είπαμε είναι η διακύμανση που επεξηγείται από τους κοινούς
παράγοντες Οι κοινοί αυτοί παράγοντες θα μπορούσαν θεωρητικά να εξηγήσουν όλη τη
διακύμανση στα x αν το πλήθος τους ήταν ίσο με το πλήθος των x Στη περίπτωση αυτή όμως
δεν θα είχε νόημα η ανάλυση παραγόντων διότι θα επρόκειτο στην ουσία για μια διαφορετική
έκφραση των ίδιων μεταβλητών Στην ουσία αυτό που θέλουμε είναι να μειώνουμε τον αριθμό
των παρατηρούμενων μεταβλητών σε έναν χώρο λιγότερων διαστάσεων Άρα στην ανάλυση
παραγόντων τα f είναι πάντα λιγότερα από τα x
Οι συντελεστές των f μπορεί να είναι διαφορετικοί και θεωρητικά υπάρχουν πολλοί
ισοδύναμοι πίνακες Λ Σε μια διερευνητική ανάλυση παραγόντων είναι στο χέρι των ερευνητών
να επιλέξουν κατάλληλους συντελεστές των f θέτοντας περιορισμούς στις διακυμάνσεις μέσω
κατάλληλων αλγόριθμων όπως ο Varimax ή o Oblimim Για να υπολογιστούν τα (ας
υποθέσουμε ότι ο αριθμός των f έχει ήδη καθοριστεί) υπάρχουν δύο γνωστές μέθοδοι στη
βιβλιογραφία η μέθοδος της μέγιστης πιθανοφάνειας και η μέθοδος των κύριων παραγόντων
Στην πρώτη η οποία είναι μέθοδος που διευκολύνθηκε από τους σημερινούς γρήγορους
υπολογιστές μεγιστοποιούμε τη πιθανοφάνεια του Λ ως προς τον Ψ Διάφοροι στατιστικοί
δίνουν την ποσότητα που μεγιστοποιούμε με τη μέθοδο αυτή (βλ Kreiner amp Christensen 2014
Stoica amp Jansson 2009 Thomson 1980) Ως λογαριθμική πιθανοφάνεια είναι
1
1
1logL log ( ) ( )
2 2
n
i
n
i iΣ x - μ Σ x - μ
Τέλος στην εκπαιδευτική έρευνα χρησιμοποιείται πολλές φορές εναλλακτικά προς την ανάλυση
παραγόντων η ανάλυση κυρίων συνιστωσών (βλ Kellow 2006 Smith 2002) Η ανάλυση κυρίων
συνιστωσών όμως δεν ε ίναι ανάλυση παραγόντων αλλά όπως λέει το όνομά της
συνιστωσών δηλαδή ένας γραμμικός μαθηματικός μετασχηματισμός των δεδομένων σε έναν
μικρότερο αριθμό διαστάσεων Όταν δε οι συντελεστές των συνιστωσών αλλάζουν ώστε αυτές
να αποκτήσουν ουσιαστικότερη σχέση με τα αρχικά δεδομένα τότε οι συνιστώσες δεν είναι
laquoκύριεςraquo
Παρόλα αυτά η δομή που θέτει η ανάλυση κυρίων συνιστωσών στα δεδομένα μοιάζει με τη δομή
που θέτει στα δεδομένα η ανάλυση παραγόντων Η δομή των k κυρίων συνιστωσών είναι
i i ix =μ +Γk + e όπου ο πίνακας Γ είναι ο πίνακας των συντελεστών και ie τα υπόλοιπα Η διαφορά
όμως της ανάλυσης παραγόντων από την ανάλυση κύριων συνιστωσών είναι ότι στην ανάλυση
παραγόντων ο πίνακας cov( )u είναι διαγώνιος ενώ στην ανάλυση κυρίων συνιστωσών ο
αντίστοιχος πίνακας cov( )i
e δεν είναι διαγώνιος Έτσι οι σκοποί της ανάλυσης συνιστωσών και
της ανάλυσης παραγόντων διαφέρουν ελαφρώς Στην ανάλυση συνιστωσών έχουμε τη βέλτιστη
δυνατή εξερεύνηση των διακυμάνσεων των ix ενώ στην ανάλυση παραγόντων εξερευνούμε τις
συνάφειες και τις συνδιακυμάνσεις Στην πράξη η ανάλυση παραγόντων και η ανάλυση κύριων
συνιστωσών δίνουν αποτελέσματα που δεν διαφέρουν εντυπωσιακά ιδιαίτερα αν οι
διακυμάνσεις είναι μικρές Στη θεωρητική περίπτωση που 0e u τα αποτελέσματά της
ανάλυσης παραγόντων και της ανάλυσης κυρίων συνιστωσών θα ταυτίζονταν Κάτι τέτοιο όμως
6
δεν είναι ρεαλιστικό Και οι δύο τεχνικές πάντως επειδή βασίζονται σε διακυμάνσεις ή
συνάφειες απαιτούν κλίμακες ίσων διαστημάτων αν και τελευταία έχουν αναπτυχθεί τεχνικές
για αντίστοιχες αναλύσεις με τακτικές τιμές
Η νέα θεωρία των μετρήσεων
Η ΠΡΟΣΕΓΓΙΣΗ ΤΟΥ GEORG RASCH
Τα τελευταία χρόνια μια νέα θεωρία έχει προταθεί για τη ψυχολογική μέτρηση η οποία
υπόσχεται ότι ξεπερνάει πολλούς από τους περιορισμούς της κλασικής θεωρίας που είδαμε στις
προηγούμενες παραγράφους H θεωρία αυτή είναι η Item Response Theory (IRT) δηλαδή η
Θεωρία Ανάλυσης Αποκρίσεων ή σε ελεύθερη απόδοση η Νέα Ψυχομετρική Θεωρία Οι απαρχές
της θεωρίας αυτής ανιχνεύονται στο έτος 1943 στη δουλειά του Σκωτσέζου στατιστικού Derrick
Lawley ο οποίος εργαζόταν κοντά στον παιδαγωγό Godfrey Thomson σε ένα γραφείο στο
Moorey House του Πανεπιστημίου του Εδιμβούργου Βασική φιλοσοφία της εν λόγω θεωρίας
είναι ότι οι μετρήσεις των διαφόρων χαρακτηριστικών των ανθρώπων εξαρτώνται τόσο από
αυτά που θέλουμε να μετρήσουμε όσο και από τα χαρακτηριστικά των θεμάτων των τεστ με τα
οποία γίνεται η μέτρηση Έτσι με τη νέα θεωρία μετριέται ταυτοχρόνως το υποκείμενο και το
εργαλείο της μέτρησης Αυτή τη θεωρία χρησιμοποίησαν οι Σιδεριδης κά (2008) στην έρευνα
που θα παρουσιάσουμε πιο κάτω
Μεγάλη ώθηση στη νέα θεωρία των μετρήσεων έδωσε ο Δανός μαθηματικός Georg Rasch ο
οποίος πρότεινε μοντέλα για διχοτομικές απαντήσεις τύπου laquoσωστόraquo - laquoλάθοςraquo Τα εν λόγω
μοντέλα πήραν το όνομά του όπως θα δούμε παρακάτω σε αυτό το κεφάλαιο Σημαντικήγια
τον τύπο αυτόν της μέτρησης ήταν επίσης και η συμβολή της Ιαπωνίδας μαθηματικού Fumiko
Samejima η οποία μελέτησε αντίστοιχες μεθόδους για περιπτώσεις που τα αποτελέσματα των
τεστ δεν έχουν μόνο δύο αλλά περισσότερες από δύο κατηγορίες (Samejima 1969) Οι Darrell Bock
και David Thissen από το Πανεπιστήμιο του Σικάγου αλλά και άλλοι ερευνητές όπως ο
Αυστριακός David Andrich εργάστηκαν ανεξάρτητα στην εν λόγω θεωρία και επέκτειναν την
ιδέα της Samejima ως προς την τελειοποίηση κατάλληλων αλγορίθμων για τον υπολογισμό
μοντέλων της θεωρίας αυτής για περιπτώσεις τεστ με πολλές κατηγορίες ενώ Gerhard Fischer
επέκτεινε προς την ίδια κατεύθυνση τα μοντέλα τύπου
Rasch Στην διάδοση της Θεωρίας των Αποκρίσεων
σημαντική υπήρξε και η συμβολή του Αμερικανού
φυσικού Benjamin Wright ο οποίος ήταν από τους
πρώτους που χρησιμοποίησαν ηλεκτρονικούς
υπολογιστές με λυχνίες και με την τεχνολογία του 1959
για τις ανάγκες υπολογισμού των παραμέτρων στην
ανάλυση δεδομένων μέσω Θεωρίας των Αποκρίσεων
Ο Wright συνεχίζει μέχρι σήμερα με τις σύγχρονες
υπολογιστικές δυνατότητες να εργάζεται με τη Item
Response Theory και να διαδίδει το λογισμικό Winsteps
για αναλύσεις κατά Rasch Έτσι λοιπόν έχουμε τρία
μοντέλα Θεωρίας Αποκρίσεων ανάλογα με τους
πόσους παράγοντες χειρίζονται (α) μοντέλα με ένα
Εικόνα 2 Ο Δανός Μαθηματικός Georg
Rasch (αριστερά) με τον φυσικό
Benjamin Wright πρωτοπόρο στη
χρήση των υπολογιστών για
ψυχομετρικές αναλύσεις
7
παράγοντα (ή μοντέλα Rasch) (β) μοντέλα με δύο παράγοντες και (γ) μοντέλα με τρεις
παράγοντες αν και πολλοί υπολογίζουν τα μοντέλα Rasch ως μια κατηγορία από μόνη της η
οποία διαφέρει από τα μοντέλα με έναν παράγοντα Στις επόμενες παραγράφους θα
αναλύσουμε τα βασικά σημεία της Θεωρίας των Αποκρίσεων και ιδιαίτερα της ανάλυσης κατά
Rasch Στην Ελλάδα η θεωρία αυτή αναπτύχθηκε κατrsquo αρχάς στην ψυχολογική έρευνα με βάση
τις εργασίες του καθηγητή του Πανεπιστημίου του Harvard Γιώργου Σιδερίδη (Sideridis 2011) Ο
πρώτος Έλληνας παιδαγωγός (όχι ψυχολόγος) που έγραψε για τη θεωρία αυτή ήταν ο
καθηγητής του Τμήματος Φιλοσοφίας ndash Παιδαγωγικής ndash Ψυχολογίας του Πανεπιστημίου
Αθηνών Μιχάλης Κασσωτάκης στο βιβλίο του Η Αξιολόγηση της Επίδοσης των Μαθητών
(Κασσωτακης 2013)
Η Θεωρία των Αποκρίσεων όπως και η Κλασική Θεωρία δέχεται ότι υπάρχει μια λανθάνουσα
μεταβλητή η οποία μετριέται με τα ερωτήματα του τεστ (τα items) Αυτή η μεταβλητή
συμβολίζεται στην Θεωρία των Αποκρίσεων με Δέχεται επίσης η Θεωρία των Αποκρίσεων
ότι κάθε ερώτημα έχει και έναν βαθμό δυσκολίας ο οποίος επηρεάζει τη σωστή απάντηση σε
καθένα από αυτά Η δυσκολία του ερωτήματος συμβολίζεται με Η πιθανότητα να απαντήσει
κάποιος σωστά σε ένα θέμα εξαρτάται από την ικανότητά αλλά και την δυσκολία του θέματος
Ισχύει δηλαδή η εξής γραμμικη λογική Πιθανότητα ορθής απάντησης = ικανότητα
του υποψηφίου ndash δυσκολία του θέματος
Με την πιο πάνω λογική αν ένας μαθητής μέτριας ικανότητας n καταπιαστεί με ένα θέμα
μέτριας δυσκολίας i τότε 120579119899minus120575119894= 0 Στην περίπτωση αυτή ο μαθητής έχει ίσες πιθανότητες να
απαντήσει ή να μην απαντήσει στο ερώτημα και άρα η πιθανότητα σωστής απάντησης είναι 05
Αν η ικανότητα του μαθητή είναι μεγαλύτερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894gt0 και
ο μαθητής έχει πιθανότητα να απαντήσει στο ερώτημα μεγαλύτερη από 05 Αν η ικανότητα του
μαθητή είναι μικρότερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894lt0 και η πιθανότητα ορθής
απάντησης είναι μικρότερη από 05 Για παράδειγμα ας υποθέσουμε ότι ρωτήσαμε έναν αριθμό
μαθητών να μας γράψουν τις λέξεις laquoαπόraquo laquoαυτοκίνητοraquo laquoδιαδίκτυοraquo laquoκωλυσιεργίαraquo και
laquoαντενδείκνυταιraquo Η πιθανότητα να απαντήσει κάποιος ορθά σε κάποια από αυτές τις λέξεις
υπολογίζεται με βάση (α) το πώς έχουν απαντήσει οι υπόλοιποι εξεταζόμενοι στην ίδια λέξη και
(β) πώς έχει απαντήσει ο ίδιος εξεταζόμενος στις υπόλοιπες ερωτήσεις Η σωστή ή λάθος
απάντηση εξαρτάται από την ορθογραφική του ικανότητα μείον την δυσκολία της λέξης Ας
υποθέσουμε ότι ένας εξεταζόμενος μπορεί να γράψει ορθογραφημένα μια λέξη με πιθανότητα
40 τοις εκατό ή 040 Η πιθανότητα να μην γράψει ορθογραφημένα τη λέξη είναι το υπόλοιπο 60
τοις εκατό ή 060 αφού 1 040 060 Αυτή η τελευταία είναι laquoσυμπληρωματική πιθανότηταraquo
του 040 Αν η πιθανότητα ενός ενδεχομένου είναι p η συμπληρωματική είναι 1 p
ΟΙ ΛΟΓΙΣΤΙΚΕΣ ΜΟΝΑΔΕΣ (LOGIT)
Επειδή η πιθανότητα p είναι δύσκολο να μοντελοποιηθεί αφού παίρνει τιμές στο κλειστό
διάστημα μεταξύ του 0 και του 1 χρησιμοποιούμε συχνά στη στατιστική το κλάσμα της
πιθανότητας προς την συμπληρωματική της Για παράδειγμα αν ρίχνουμε ένα ζάρι με
πιθανότητα να κερδίσουμε 50 τοις εκατό ή 05 τα odds είναι 05 05
11 05 05
To odd λοιπόν είναι
1
p
p και είναι η πιθανότητα ενός ενδεχομένου προς τη συμπληρωματική της Τα κλάσμα αυτό
8
παίρνει τιμές από το 0 μέχρι θεωρητικά το συν άπειρο Όσο η πιθανότητα ενός ενδεχομένου
προσεγγίζει το μηδέν το κλάσμα προσεγγίζει το μηδέν Όσο η πιθανότητα προσεγγίζει τη
μονάδα το κλάσμα προσεγγίζει το συν άπειρο Στο παράδειγμα που είδαμε στην προηγούμενη
ενότητα ο το κλάσμα της πιθανότητας προς τη συμπληρωματική της θα ήταν
πιθανότητα ορθής απάντησης
πιθανότητα λανθασμένης απάντησης 040
066060
Για να μετατρέψουμε το κλάσμα πάλι σε
πιθανότητα εργαζόμαστε αντίστροφα και έχουμε ότι 066
0401 1 066
oddp
odd
Το κλάσμα της πιθανότητας προς τη συμπληρωματική της έχει πάντα θετικές τιμές Στον
Σφάλμα Το αρχείο προέλευσης της αναφοράς δεν βρέθηκε που ακολουθεί βλέπουμε στην
πρώτη γραμμή τις πιθανότητες από 001 ως 099 Στη δεύτερη γραμμή παρουσιάζονται τα odds
δηλαδή οι λόγοι των πιθανοτήτων που βρίσκονται στη πρώτη γραμμή προς τις αντίστοιχες
συμπληρωματικές πιθανότητες Στη τρίτη γραμμή τιμές βλέπουμε ξανά τις τιμές odds σε
δεκαδική μορφή να είναι μικρότερες της μονάδες για πιθανότητες μικρότερες του 05 και
μεγαλύτερες από τη μονάδα για πιθανότητες μεγαλύτερες του 05 του κλάσματος αυτού για
πιθανότητες από 001 ως 099 ή 99 τοις εκατό Στην τέταρτη γραμμή παρουσιάζονται οι φυσικοί
λογάριθμοι των odds δηλαδή ως δυνάμεις στις οποίες πρέπει να υψωθεί ο αριθμός e για να
δώσει την τιμή του odd Ο αριθμός e είναι ο 2718 Για το παράδειγμα που αναφέραμε
προηγουμένως έχουμε στην έβδομη στήλη του Πίνακας 1 ότι 041 066e
Πίνακας 1 Οdds (πιθανότητα προς τη συμπληρωματική της) και λογιστικές μονάδες
Πιθανότητα p 001 010 020 030 040 050 060 070 080 090
Odds 1
p
p 1
99
10
90
20
80
30
70
40
60
50
50
60
40
70
30
80
20
90
10
Τιμές των
odds
001 011 025 043 066 1 150 233 4 9
logit ln
1
p
p
-460 -220 -138 -084 -041 0 040 084 138 218
Με μαθηματικό συμβολισμό αυτό γράφεται ως ln1
py
p
και
1y pe
p
Στο δικό μας
παράδειγμα έχουμε 040066 e και συνεπώς ln(067) 040
Ο μετασχηματισμός αυτός όπως βλέπουμε στο Σχήμα 1 μετατρέπει την πιθανότητα στον
κάθετο άξονα η οποία είναι πάντα θετική και περιορίζεται στο διάστημα (0 1) σε λογιστικές
μονάδες που θεωρητικά παίρνουν τιμές από το πλην άπειρο στο συν άπειρο
9
Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά
τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία
δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008
Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες
10
Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία
11
ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ
Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία
Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα
12
Οι συγγραφείς
συνοψίζουν στη σελίδα
292 της εργασίας τους
ότι το ελληνικό
ορθογραφικό σύστημα
χαρακτηρίζεται από
πολυσήμαντη
αντιστοιχία
ταυτόχρονη
αντιστοιχία αλλά και
αναντιστοιχία μεταξύ
φθόγγων και
γραφημάτων Έτσι
καταλήγουν στο
συμπέρασμα ότι laquoη
ακριβής γραφή των
λέξεων εξαρτάται
εκτός από τη
φωνημική επιγνωση
του αναγνώστη και
από το
οπτικοορθογραφικό
του λεξικό και τη
μορφολογική του
επίγνωσηraquo
Οι συγγραφείς
παρουσιάζουν
στοιχεία για παρόμοιες
διδακτικές
παρεμβάσεις στην
Ελλάδα και στην δεξιά
στήλη της επόμενης
σελίδας 293
αναφέρονται στη δική
τους εργασία ως μέρος
μιας ευρύτερης
διαχρονικής μελέτης
που περιελάμβανε
πέντε διαδοχικές
μετρήσεις
13
Και η
βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας
επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός
ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση
θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι
laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός
τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για
το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η
αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια
αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα
ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια
14
θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν
ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι
αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια
αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ
έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν
βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό
και στο άλλο
15
Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία
ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον
πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα
χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι
συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους
συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη
και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που
είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα
1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος
16
τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της
κατανομής της ηλικίας
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ
Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα
laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό
τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες
περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές
ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να
πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα
Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι
ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την
ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε
μεγάλη θεωρητική και στατιστική σημασία
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
6
δεν είναι ρεαλιστικό Και οι δύο τεχνικές πάντως επειδή βασίζονται σε διακυμάνσεις ή
συνάφειες απαιτούν κλίμακες ίσων διαστημάτων αν και τελευταία έχουν αναπτυχθεί τεχνικές
για αντίστοιχες αναλύσεις με τακτικές τιμές
Η νέα θεωρία των μετρήσεων
Η ΠΡΟΣΕΓΓΙΣΗ ΤΟΥ GEORG RASCH
Τα τελευταία χρόνια μια νέα θεωρία έχει προταθεί για τη ψυχολογική μέτρηση η οποία
υπόσχεται ότι ξεπερνάει πολλούς από τους περιορισμούς της κλασικής θεωρίας που είδαμε στις
προηγούμενες παραγράφους H θεωρία αυτή είναι η Item Response Theory (IRT) δηλαδή η
Θεωρία Ανάλυσης Αποκρίσεων ή σε ελεύθερη απόδοση η Νέα Ψυχομετρική Θεωρία Οι απαρχές
της θεωρίας αυτής ανιχνεύονται στο έτος 1943 στη δουλειά του Σκωτσέζου στατιστικού Derrick
Lawley ο οποίος εργαζόταν κοντά στον παιδαγωγό Godfrey Thomson σε ένα γραφείο στο
Moorey House του Πανεπιστημίου του Εδιμβούργου Βασική φιλοσοφία της εν λόγω θεωρίας
είναι ότι οι μετρήσεις των διαφόρων χαρακτηριστικών των ανθρώπων εξαρτώνται τόσο από
αυτά που θέλουμε να μετρήσουμε όσο και από τα χαρακτηριστικά των θεμάτων των τεστ με τα
οποία γίνεται η μέτρηση Έτσι με τη νέα θεωρία μετριέται ταυτοχρόνως το υποκείμενο και το
εργαλείο της μέτρησης Αυτή τη θεωρία χρησιμοποίησαν οι Σιδεριδης κά (2008) στην έρευνα
που θα παρουσιάσουμε πιο κάτω
Μεγάλη ώθηση στη νέα θεωρία των μετρήσεων έδωσε ο Δανός μαθηματικός Georg Rasch ο
οποίος πρότεινε μοντέλα για διχοτομικές απαντήσεις τύπου laquoσωστόraquo - laquoλάθοςraquo Τα εν λόγω
μοντέλα πήραν το όνομά του όπως θα δούμε παρακάτω σε αυτό το κεφάλαιο Σημαντικήγια
τον τύπο αυτόν της μέτρησης ήταν επίσης και η συμβολή της Ιαπωνίδας μαθηματικού Fumiko
Samejima η οποία μελέτησε αντίστοιχες μεθόδους για περιπτώσεις που τα αποτελέσματα των
τεστ δεν έχουν μόνο δύο αλλά περισσότερες από δύο κατηγορίες (Samejima 1969) Οι Darrell Bock
και David Thissen από το Πανεπιστήμιο του Σικάγου αλλά και άλλοι ερευνητές όπως ο
Αυστριακός David Andrich εργάστηκαν ανεξάρτητα στην εν λόγω θεωρία και επέκτειναν την
ιδέα της Samejima ως προς την τελειοποίηση κατάλληλων αλγορίθμων για τον υπολογισμό
μοντέλων της θεωρίας αυτής για περιπτώσεις τεστ με πολλές κατηγορίες ενώ Gerhard Fischer
επέκτεινε προς την ίδια κατεύθυνση τα μοντέλα τύπου
Rasch Στην διάδοση της Θεωρίας των Αποκρίσεων
σημαντική υπήρξε και η συμβολή του Αμερικανού
φυσικού Benjamin Wright ο οποίος ήταν από τους
πρώτους που χρησιμοποίησαν ηλεκτρονικούς
υπολογιστές με λυχνίες και με την τεχνολογία του 1959
για τις ανάγκες υπολογισμού των παραμέτρων στην
ανάλυση δεδομένων μέσω Θεωρίας των Αποκρίσεων
Ο Wright συνεχίζει μέχρι σήμερα με τις σύγχρονες
υπολογιστικές δυνατότητες να εργάζεται με τη Item
Response Theory και να διαδίδει το λογισμικό Winsteps
για αναλύσεις κατά Rasch Έτσι λοιπόν έχουμε τρία
μοντέλα Θεωρίας Αποκρίσεων ανάλογα με τους
πόσους παράγοντες χειρίζονται (α) μοντέλα με ένα
Εικόνα 2 Ο Δανός Μαθηματικός Georg
Rasch (αριστερά) με τον φυσικό
Benjamin Wright πρωτοπόρο στη
χρήση των υπολογιστών για
ψυχομετρικές αναλύσεις
7
παράγοντα (ή μοντέλα Rasch) (β) μοντέλα με δύο παράγοντες και (γ) μοντέλα με τρεις
παράγοντες αν και πολλοί υπολογίζουν τα μοντέλα Rasch ως μια κατηγορία από μόνη της η
οποία διαφέρει από τα μοντέλα με έναν παράγοντα Στις επόμενες παραγράφους θα
αναλύσουμε τα βασικά σημεία της Θεωρίας των Αποκρίσεων και ιδιαίτερα της ανάλυσης κατά
Rasch Στην Ελλάδα η θεωρία αυτή αναπτύχθηκε κατrsquo αρχάς στην ψυχολογική έρευνα με βάση
τις εργασίες του καθηγητή του Πανεπιστημίου του Harvard Γιώργου Σιδερίδη (Sideridis 2011) Ο
πρώτος Έλληνας παιδαγωγός (όχι ψυχολόγος) που έγραψε για τη θεωρία αυτή ήταν ο
καθηγητής του Τμήματος Φιλοσοφίας ndash Παιδαγωγικής ndash Ψυχολογίας του Πανεπιστημίου
Αθηνών Μιχάλης Κασσωτάκης στο βιβλίο του Η Αξιολόγηση της Επίδοσης των Μαθητών
(Κασσωτακης 2013)
Η Θεωρία των Αποκρίσεων όπως και η Κλασική Θεωρία δέχεται ότι υπάρχει μια λανθάνουσα
μεταβλητή η οποία μετριέται με τα ερωτήματα του τεστ (τα items) Αυτή η μεταβλητή
συμβολίζεται στην Θεωρία των Αποκρίσεων με Δέχεται επίσης η Θεωρία των Αποκρίσεων
ότι κάθε ερώτημα έχει και έναν βαθμό δυσκολίας ο οποίος επηρεάζει τη σωστή απάντηση σε
καθένα από αυτά Η δυσκολία του ερωτήματος συμβολίζεται με Η πιθανότητα να απαντήσει
κάποιος σωστά σε ένα θέμα εξαρτάται από την ικανότητά αλλά και την δυσκολία του θέματος
Ισχύει δηλαδή η εξής γραμμικη λογική Πιθανότητα ορθής απάντησης = ικανότητα
του υποψηφίου ndash δυσκολία του θέματος
Με την πιο πάνω λογική αν ένας μαθητής μέτριας ικανότητας n καταπιαστεί με ένα θέμα
μέτριας δυσκολίας i τότε 120579119899minus120575119894= 0 Στην περίπτωση αυτή ο μαθητής έχει ίσες πιθανότητες να
απαντήσει ή να μην απαντήσει στο ερώτημα και άρα η πιθανότητα σωστής απάντησης είναι 05
Αν η ικανότητα του μαθητή είναι μεγαλύτερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894gt0 και
ο μαθητής έχει πιθανότητα να απαντήσει στο ερώτημα μεγαλύτερη από 05 Αν η ικανότητα του
μαθητή είναι μικρότερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894lt0 και η πιθανότητα ορθής
απάντησης είναι μικρότερη από 05 Για παράδειγμα ας υποθέσουμε ότι ρωτήσαμε έναν αριθμό
μαθητών να μας γράψουν τις λέξεις laquoαπόraquo laquoαυτοκίνητοraquo laquoδιαδίκτυοraquo laquoκωλυσιεργίαraquo και
laquoαντενδείκνυταιraquo Η πιθανότητα να απαντήσει κάποιος ορθά σε κάποια από αυτές τις λέξεις
υπολογίζεται με βάση (α) το πώς έχουν απαντήσει οι υπόλοιποι εξεταζόμενοι στην ίδια λέξη και
(β) πώς έχει απαντήσει ο ίδιος εξεταζόμενος στις υπόλοιπες ερωτήσεις Η σωστή ή λάθος
απάντηση εξαρτάται από την ορθογραφική του ικανότητα μείον την δυσκολία της λέξης Ας
υποθέσουμε ότι ένας εξεταζόμενος μπορεί να γράψει ορθογραφημένα μια λέξη με πιθανότητα
40 τοις εκατό ή 040 Η πιθανότητα να μην γράψει ορθογραφημένα τη λέξη είναι το υπόλοιπο 60
τοις εκατό ή 060 αφού 1 040 060 Αυτή η τελευταία είναι laquoσυμπληρωματική πιθανότηταraquo
του 040 Αν η πιθανότητα ενός ενδεχομένου είναι p η συμπληρωματική είναι 1 p
ΟΙ ΛΟΓΙΣΤΙΚΕΣ ΜΟΝΑΔΕΣ (LOGIT)
Επειδή η πιθανότητα p είναι δύσκολο να μοντελοποιηθεί αφού παίρνει τιμές στο κλειστό
διάστημα μεταξύ του 0 και του 1 χρησιμοποιούμε συχνά στη στατιστική το κλάσμα της
πιθανότητας προς την συμπληρωματική της Για παράδειγμα αν ρίχνουμε ένα ζάρι με
πιθανότητα να κερδίσουμε 50 τοις εκατό ή 05 τα odds είναι 05 05
11 05 05
To odd λοιπόν είναι
1
p
p και είναι η πιθανότητα ενός ενδεχομένου προς τη συμπληρωματική της Τα κλάσμα αυτό
8
παίρνει τιμές από το 0 μέχρι θεωρητικά το συν άπειρο Όσο η πιθανότητα ενός ενδεχομένου
προσεγγίζει το μηδέν το κλάσμα προσεγγίζει το μηδέν Όσο η πιθανότητα προσεγγίζει τη
μονάδα το κλάσμα προσεγγίζει το συν άπειρο Στο παράδειγμα που είδαμε στην προηγούμενη
ενότητα ο το κλάσμα της πιθανότητας προς τη συμπληρωματική της θα ήταν
πιθανότητα ορθής απάντησης
πιθανότητα λανθασμένης απάντησης 040
066060
Για να μετατρέψουμε το κλάσμα πάλι σε
πιθανότητα εργαζόμαστε αντίστροφα και έχουμε ότι 066
0401 1 066
oddp
odd
Το κλάσμα της πιθανότητας προς τη συμπληρωματική της έχει πάντα θετικές τιμές Στον
Σφάλμα Το αρχείο προέλευσης της αναφοράς δεν βρέθηκε που ακολουθεί βλέπουμε στην
πρώτη γραμμή τις πιθανότητες από 001 ως 099 Στη δεύτερη γραμμή παρουσιάζονται τα odds
δηλαδή οι λόγοι των πιθανοτήτων που βρίσκονται στη πρώτη γραμμή προς τις αντίστοιχες
συμπληρωματικές πιθανότητες Στη τρίτη γραμμή τιμές βλέπουμε ξανά τις τιμές odds σε
δεκαδική μορφή να είναι μικρότερες της μονάδες για πιθανότητες μικρότερες του 05 και
μεγαλύτερες από τη μονάδα για πιθανότητες μεγαλύτερες του 05 του κλάσματος αυτού για
πιθανότητες από 001 ως 099 ή 99 τοις εκατό Στην τέταρτη γραμμή παρουσιάζονται οι φυσικοί
λογάριθμοι των odds δηλαδή ως δυνάμεις στις οποίες πρέπει να υψωθεί ο αριθμός e για να
δώσει την τιμή του odd Ο αριθμός e είναι ο 2718 Για το παράδειγμα που αναφέραμε
προηγουμένως έχουμε στην έβδομη στήλη του Πίνακας 1 ότι 041 066e
Πίνακας 1 Οdds (πιθανότητα προς τη συμπληρωματική της) και λογιστικές μονάδες
Πιθανότητα p 001 010 020 030 040 050 060 070 080 090
Odds 1
p
p 1
99
10
90
20
80
30
70
40
60
50
50
60
40
70
30
80
20
90
10
Τιμές των
odds
001 011 025 043 066 1 150 233 4 9
logit ln
1
p
p
-460 -220 -138 -084 -041 0 040 084 138 218
Με μαθηματικό συμβολισμό αυτό γράφεται ως ln1
py
p
και
1y pe
p
Στο δικό μας
παράδειγμα έχουμε 040066 e και συνεπώς ln(067) 040
Ο μετασχηματισμός αυτός όπως βλέπουμε στο Σχήμα 1 μετατρέπει την πιθανότητα στον
κάθετο άξονα η οποία είναι πάντα θετική και περιορίζεται στο διάστημα (0 1) σε λογιστικές
μονάδες που θεωρητικά παίρνουν τιμές από το πλην άπειρο στο συν άπειρο
9
Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά
τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία
δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008
Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες
10
Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία
11
ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ
Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία
Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα
12
Οι συγγραφείς
συνοψίζουν στη σελίδα
292 της εργασίας τους
ότι το ελληνικό
ορθογραφικό σύστημα
χαρακτηρίζεται από
πολυσήμαντη
αντιστοιχία
ταυτόχρονη
αντιστοιχία αλλά και
αναντιστοιχία μεταξύ
φθόγγων και
γραφημάτων Έτσι
καταλήγουν στο
συμπέρασμα ότι laquoη
ακριβής γραφή των
λέξεων εξαρτάται
εκτός από τη
φωνημική επιγνωση
του αναγνώστη και
από το
οπτικοορθογραφικό
του λεξικό και τη
μορφολογική του
επίγνωσηraquo
Οι συγγραφείς
παρουσιάζουν
στοιχεία για παρόμοιες
διδακτικές
παρεμβάσεις στην
Ελλάδα και στην δεξιά
στήλη της επόμενης
σελίδας 293
αναφέρονται στη δική
τους εργασία ως μέρος
μιας ευρύτερης
διαχρονικής μελέτης
που περιελάμβανε
πέντε διαδοχικές
μετρήσεις
13
Και η
βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας
επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός
ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση
θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι
laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός
τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για
το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η
αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια
αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα
ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια
14
θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν
ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι
αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια
αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ
έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν
βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό
και στο άλλο
15
Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία
ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον
πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα
χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι
συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους
συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη
και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που
είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα
1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος
16
τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της
κατανομής της ηλικίας
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ
Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα
laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό
τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες
περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές
ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να
πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα
Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι
ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την
ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε
μεγάλη θεωρητική και στατιστική σημασία
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
7
παράγοντα (ή μοντέλα Rasch) (β) μοντέλα με δύο παράγοντες και (γ) μοντέλα με τρεις
παράγοντες αν και πολλοί υπολογίζουν τα μοντέλα Rasch ως μια κατηγορία από μόνη της η
οποία διαφέρει από τα μοντέλα με έναν παράγοντα Στις επόμενες παραγράφους θα
αναλύσουμε τα βασικά σημεία της Θεωρίας των Αποκρίσεων και ιδιαίτερα της ανάλυσης κατά
Rasch Στην Ελλάδα η θεωρία αυτή αναπτύχθηκε κατrsquo αρχάς στην ψυχολογική έρευνα με βάση
τις εργασίες του καθηγητή του Πανεπιστημίου του Harvard Γιώργου Σιδερίδη (Sideridis 2011) Ο
πρώτος Έλληνας παιδαγωγός (όχι ψυχολόγος) που έγραψε για τη θεωρία αυτή ήταν ο
καθηγητής του Τμήματος Φιλοσοφίας ndash Παιδαγωγικής ndash Ψυχολογίας του Πανεπιστημίου
Αθηνών Μιχάλης Κασσωτάκης στο βιβλίο του Η Αξιολόγηση της Επίδοσης των Μαθητών
(Κασσωτακης 2013)
Η Θεωρία των Αποκρίσεων όπως και η Κλασική Θεωρία δέχεται ότι υπάρχει μια λανθάνουσα
μεταβλητή η οποία μετριέται με τα ερωτήματα του τεστ (τα items) Αυτή η μεταβλητή
συμβολίζεται στην Θεωρία των Αποκρίσεων με Δέχεται επίσης η Θεωρία των Αποκρίσεων
ότι κάθε ερώτημα έχει και έναν βαθμό δυσκολίας ο οποίος επηρεάζει τη σωστή απάντηση σε
καθένα από αυτά Η δυσκολία του ερωτήματος συμβολίζεται με Η πιθανότητα να απαντήσει
κάποιος σωστά σε ένα θέμα εξαρτάται από την ικανότητά αλλά και την δυσκολία του θέματος
Ισχύει δηλαδή η εξής γραμμικη λογική Πιθανότητα ορθής απάντησης = ικανότητα
του υποψηφίου ndash δυσκολία του θέματος
Με την πιο πάνω λογική αν ένας μαθητής μέτριας ικανότητας n καταπιαστεί με ένα θέμα
μέτριας δυσκολίας i τότε 120579119899minus120575119894= 0 Στην περίπτωση αυτή ο μαθητής έχει ίσες πιθανότητες να
απαντήσει ή να μην απαντήσει στο ερώτημα και άρα η πιθανότητα σωστής απάντησης είναι 05
Αν η ικανότητα του μαθητή είναι μεγαλύτερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894gt0 και
ο μαθητής έχει πιθανότητα να απαντήσει στο ερώτημα μεγαλύτερη από 05 Αν η ικανότητα του
μαθητή είναι μικρότερη από τη δυσκολία του ερωτήματος τότε 120579119899minus120575119894lt0 και η πιθανότητα ορθής
απάντησης είναι μικρότερη από 05 Για παράδειγμα ας υποθέσουμε ότι ρωτήσαμε έναν αριθμό
μαθητών να μας γράψουν τις λέξεις laquoαπόraquo laquoαυτοκίνητοraquo laquoδιαδίκτυοraquo laquoκωλυσιεργίαraquo και
laquoαντενδείκνυταιraquo Η πιθανότητα να απαντήσει κάποιος ορθά σε κάποια από αυτές τις λέξεις
υπολογίζεται με βάση (α) το πώς έχουν απαντήσει οι υπόλοιποι εξεταζόμενοι στην ίδια λέξη και
(β) πώς έχει απαντήσει ο ίδιος εξεταζόμενος στις υπόλοιπες ερωτήσεις Η σωστή ή λάθος
απάντηση εξαρτάται από την ορθογραφική του ικανότητα μείον την δυσκολία της λέξης Ας
υποθέσουμε ότι ένας εξεταζόμενος μπορεί να γράψει ορθογραφημένα μια λέξη με πιθανότητα
40 τοις εκατό ή 040 Η πιθανότητα να μην γράψει ορθογραφημένα τη λέξη είναι το υπόλοιπο 60
τοις εκατό ή 060 αφού 1 040 060 Αυτή η τελευταία είναι laquoσυμπληρωματική πιθανότηταraquo
του 040 Αν η πιθανότητα ενός ενδεχομένου είναι p η συμπληρωματική είναι 1 p
ΟΙ ΛΟΓΙΣΤΙΚΕΣ ΜΟΝΑΔΕΣ (LOGIT)
Επειδή η πιθανότητα p είναι δύσκολο να μοντελοποιηθεί αφού παίρνει τιμές στο κλειστό
διάστημα μεταξύ του 0 και του 1 χρησιμοποιούμε συχνά στη στατιστική το κλάσμα της
πιθανότητας προς την συμπληρωματική της Για παράδειγμα αν ρίχνουμε ένα ζάρι με
πιθανότητα να κερδίσουμε 50 τοις εκατό ή 05 τα odds είναι 05 05
11 05 05
To odd λοιπόν είναι
1
p
p και είναι η πιθανότητα ενός ενδεχομένου προς τη συμπληρωματική της Τα κλάσμα αυτό
8
παίρνει τιμές από το 0 μέχρι θεωρητικά το συν άπειρο Όσο η πιθανότητα ενός ενδεχομένου
προσεγγίζει το μηδέν το κλάσμα προσεγγίζει το μηδέν Όσο η πιθανότητα προσεγγίζει τη
μονάδα το κλάσμα προσεγγίζει το συν άπειρο Στο παράδειγμα που είδαμε στην προηγούμενη
ενότητα ο το κλάσμα της πιθανότητας προς τη συμπληρωματική της θα ήταν
πιθανότητα ορθής απάντησης
πιθανότητα λανθασμένης απάντησης 040
066060
Για να μετατρέψουμε το κλάσμα πάλι σε
πιθανότητα εργαζόμαστε αντίστροφα και έχουμε ότι 066
0401 1 066
oddp
odd
Το κλάσμα της πιθανότητας προς τη συμπληρωματική της έχει πάντα θετικές τιμές Στον
Σφάλμα Το αρχείο προέλευσης της αναφοράς δεν βρέθηκε που ακολουθεί βλέπουμε στην
πρώτη γραμμή τις πιθανότητες από 001 ως 099 Στη δεύτερη γραμμή παρουσιάζονται τα odds
δηλαδή οι λόγοι των πιθανοτήτων που βρίσκονται στη πρώτη γραμμή προς τις αντίστοιχες
συμπληρωματικές πιθανότητες Στη τρίτη γραμμή τιμές βλέπουμε ξανά τις τιμές odds σε
δεκαδική μορφή να είναι μικρότερες της μονάδες για πιθανότητες μικρότερες του 05 και
μεγαλύτερες από τη μονάδα για πιθανότητες μεγαλύτερες του 05 του κλάσματος αυτού για
πιθανότητες από 001 ως 099 ή 99 τοις εκατό Στην τέταρτη γραμμή παρουσιάζονται οι φυσικοί
λογάριθμοι των odds δηλαδή ως δυνάμεις στις οποίες πρέπει να υψωθεί ο αριθμός e για να
δώσει την τιμή του odd Ο αριθμός e είναι ο 2718 Για το παράδειγμα που αναφέραμε
προηγουμένως έχουμε στην έβδομη στήλη του Πίνακας 1 ότι 041 066e
Πίνακας 1 Οdds (πιθανότητα προς τη συμπληρωματική της) και λογιστικές μονάδες
Πιθανότητα p 001 010 020 030 040 050 060 070 080 090
Odds 1
p
p 1
99
10
90
20
80
30
70
40
60
50
50
60
40
70
30
80
20
90
10
Τιμές των
odds
001 011 025 043 066 1 150 233 4 9
logit ln
1
p
p
-460 -220 -138 -084 -041 0 040 084 138 218
Με μαθηματικό συμβολισμό αυτό γράφεται ως ln1
py
p
και
1y pe
p
Στο δικό μας
παράδειγμα έχουμε 040066 e και συνεπώς ln(067) 040
Ο μετασχηματισμός αυτός όπως βλέπουμε στο Σχήμα 1 μετατρέπει την πιθανότητα στον
κάθετο άξονα η οποία είναι πάντα θετική και περιορίζεται στο διάστημα (0 1) σε λογιστικές
μονάδες που θεωρητικά παίρνουν τιμές από το πλην άπειρο στο συν άπειρο
9
Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά
τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία
δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008
Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες
10
Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία
11
ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ
Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία
Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα
12
Οι συγγραφείς
συνοψίζουν στη σελίδα
292 της εργασίας τους
ότι το ελληνικό
ορθογραφικό σύστημα
χαρακτηρίζεται από
πολυσήμαντη
αντιστοιχία
ταυτόχρονη
αντιστοιχία αλλά και
αναντιστοιχία μεταξύ
φθόγγων και
γραφημάτων Έτσι
καταλήγουν στο
συμπέρασμα ότι laquoη
ακριβής γραφή των
λέξεων εξαρτάται
εκτός από τη
φωνημική επιγνωση
του αναγνώστη και
από το
οπτικοορθογραφικό
του λεξικό και τη
μορφολογική του
επίγνωσηraquo
Οι συγγραφείς
παρουσιάζουν
στοιχεία για παρόμοιες
διδακτικές
παρεμβάσεις στην
Ελλάδα και στην δεξιά
στήλη της επόμενης
σελίδας 293
αναφέρονται στη δική
τους εργασία ως μέρος
μιας ευρύτερης
διαχρονικής μελέτης
που περιελάμβανε
πέντε διαδοχικές
μετρήσεις
13
Και η
βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας
επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός
ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση
θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι
laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός
τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για
το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η
αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια
αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα
ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια
14
θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν
ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι
αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια
αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ
έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν
βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό
και στο άλλο
15
Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία
ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον
πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα
χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι
συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους
συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη
και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που
είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα
1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος
16
τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της
κατανομής της ηλικίας
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ
Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα
laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό
τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες
περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές
ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να
πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα
Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι
ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την
ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε
μεγάλη θεωρητική και στατιστική σημασία
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
8
παίρνει τιμές από το 0 μέχρι θεωρητικά το συν άπειρο Όσο η πιθανότητα ενός ενδεχομένου
προσεγγίζει το μηδέν το κλάσμα προσεγγίζει το μηδέν Όσο η πιθανότητα προσεγγίζει τη
μονάδα το κλάσμα προσεγγίζει το συν άπειρο Στο παράδειγμα που είδαμε στην προηγούμενη
ενότητα ο το κλάσμα της πιθανότητας προς τη συμπληρωματική της θα ήταν
πιθανότητα ορθής απάντησης
πιθανότητα λανθασμένης απάντησης 040
066060
Για να μετατρέψουμε το κλάσμα πάλι σε
πιθανότητα εργαζόμαστε αντίστροφα και έχουμε ότι 066
0401 1 066
oddp
odd
Το κλάσμα της πιθανότητας προς τη συμπληρωματική της έχει πάντα θετικές τιμές Στον
Σφάλμα Το αρχείο προέλευσης της αναφοράς δεν βρέθηκε που ακολουθεί βλέπουμε στην
πρώτη γραμμή τις πιθανότητες από 001 ως 099 Στη δεύτερη γραμμή παρουσιάζονται τα odds
δηλαδή οι λόγοι των πιθανοτήτων που βρίσκονται στη πρώτη γραμμή προς τις αντίστοιχες
συμπληρωματικές πιθανότητες Στη τρίτη γραμμή τιμές βλέπουμε ξανά τις τιμές odds σε
δεκαδική μορφή να είναι μικρότερες της μονάδες για πιθανότητες μικρότερες του 05 και
μεγαλύτερες από τη μονάδα για πιθανότητες μεγαλύτερες του 05 του κλάσματος αυτού για
πιθανότητες από 001 ως 099 ή 99 τοις εκατό Στην τέταρτη γραμμή παρουσιάζονται οι φυσικοί
λογάριθμοι των odds δηλαδή ως δυνάμεις στις οποίες πρέπει να υψωθεί ο αριθμός e για να
δώσει την τιμή του odd Ο αριθμός e είναι ο 2718 Για το παράδειγμα που αναφέραμε
προηγουμένως έχουμε στην έβδομη στήλη του Πίνακας 1 ότι 041 066e
Πίνακας 1 Οdds (πιθανότητα προς τη συμπληρωματική της) και λογιστικές μονάδες
Πιθανότητα p 001 010 020 030 040 050 060 070 080 090
Odds 1
p
p 1
99
10
90
20
80
30
70
40
60
50
50
60
40
70
30
80
20
90
10
Τιμές των
odds
001 011 025 043 066 1 150 233 4 9
logit ln
1
p
p
-460 -220 -138 -084 -041 0 040 084 138 218
Με μαθηματικό συμβολισμό αυτό γράφεται ως ln1
py
p
και
1y pe
p
Στο δικό μας
παράδειγμα έχουμε 040066 e και συνεπώς ln(067) 040
Ο μετασχηματισμός αυτός όπως βλέπουμε στο Σχήμα 1 μετατρέπει την πιθανότητα στον
κάθετο άξονα η οποία είναι πάντα θετική και περιορίζεται στο διάστημα (0 1) σε λογιστικές
μονάδες που θεωρητικά παίρνουν τιμές από το πλην άπειρο στο συν άπειρο
9
Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά
τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία
δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008
Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες
10
Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία
11
ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ
Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία
Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα
12
Οι συγγραφείς
συνοψίζουν στη σελίδα
292 της εργασίας τους
ότι το ελληνικό
ορθογραφικό σύστημα
χαρακτηρίζεται από
πολυσήμαντη
αντιστοιχία
ταυτόχρονη
αντιστοιχία αλλά και
αναντιστοιχία μεταξύ
φθόγγων και
γραφημάτων Έτσι
καταλήγουν στο
συμπέρασμα ότι laquoη
ακριβής γραφή των
λέξεων εξαρτάται
εκτός από τη
φωνημική επιγνωση
του αναγνώστη και
από το
οπτικοορθογραφικό
του λεξικό και τη
μορφολογική του
επίγνωσηraquo
Οι συγγραφείς
παρουσιάζουν
στοιχεία για παρόμοιες
διδακτικές
παρεμβάσεις στην
Ελλάδα και στην δεξιά
στήλη της επόμενης
σελίδας 293
αναφέρονται στη δική
τους εργασία ως μέρος
μιας ευρύτερης
διαχρονικής μελέτης
που περιελάμβανε
πέντε διαδοχικές
μετρήσεις
13
Και η
βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας
επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός
ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση
θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι
laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός
τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για
το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η
αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια
αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα
ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια
14
θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν
ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι
αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια
αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ
έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν
βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό
και στο άλλο
15
Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία
ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον
πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα
χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι
συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους
συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη
και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που
είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα
1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος
16
τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της
κατανομής της ηλικίας
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ
Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα
laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό
τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες
περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές
ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να
πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα
Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι
ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την
ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε
μεγάλη θεωρητική και στατιστική σημασία
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
9
Στο κεφάλαιο αυτό λοιπόν θα διαβάσουμε την έρευνα των Σιδεριδη κά (2008) η οποία αφορά
τη μελέτη μιας ορθογραφικής δοκιμασίας σε μαθητές Δημοτικού Σχολείου και η οποία
δημοσιεύτηκε στο περιοδικό Ψυχολογία το 2008
Σχήμα 1 Μετατροπή πιθανότητας σε λογιστικές μονάδες
10
Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία
11
ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ
Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία
Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα
12
Οι συγγραφείς
συνοψίζουν στη σελίδα
292 της εργασίας τους
ότι το ελληνικό
ορθογραφικό σύστημα
χαρακτηρίζεται από
πολυσήμαντη
αντιστοιχία
ταυτόχρονη
αντιστοιχία αλλά και
αναντιστοιχία μεταξύ
φθόγγων και
γραφημάτων Έτσι
καταλήγουν στο
συμπέρασμα ότι laquoη
ακριβής γραφή των
λέξεων εξαρτάται
εκτός από τη
φωνημική επιγνωση
του αναγνώστη και
από το
οπτικοορθογραφικό
του λεξικό και τη
μορφολογική του
επίγνωσηraquo
Οι συγγραφείς
παρουσιάζουν
στοιχεία για παρόμοιες
διδακτικές
παρεμβάσεις στην
Ελλάδα και στην δεξιά
στήλη της επόμενης
σελίδας 293
αναφέρονται στη δική
τους εργασία ως μέρος
μιας ευρύτερης
διαχρονικής μελέτης
που περιελάμβανε
πέντε διαδοχικές
μετρήσεις
13
Και η
βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας
επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός
ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση
θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι
laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός
τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για
το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η
αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια
αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα
ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια
14
θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν
ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι
αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια
αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ
έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν
βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό
και στο άλλο
15
Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία
ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον
πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα
χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι
συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους
συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη
και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που
είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα
1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος
16
τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της
κατανομής της ηλικίας
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ
Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα
laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό
τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες
περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές
ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να
πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα
Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι
ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την
ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε
μεγάλη θεωρητική και στατιστική σημασία
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
10
Οι Σιδερίδης κά (2008) πραγματοποίησαν έρευνα με σκοπό να μελετήσουν τα ψυχομετρικά χαρακτηριστικά μιας ορθογραφικής δοκιμασίας για μαθητές Δημοτικού Στην πρώτη σελίδα της εργασίας των Σιδερίδη και των συνεργατών του (ό π) υπάρχει η περίληψη Στην Εισαγωγή οι συγγραφείς αναφέρονται στη σημαντικότητα της μελέτης τους και εξηγούν ποιο κενό έρχονται να καλύψουν στη σχετική βιβλιογραφία
11
ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ
Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία
Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα
12
Οι συγγραφείς
συνοψίζουν στη σελίδα
292 της εργασίας τους
ότι το ελληνικό
ορθογραφικό σύστημα
χαρακτηρίζεται από
πολυσήμαντη
αντιστοιχία
ταυτόχρονη
αντιστοιχία αλλά και
αναντιστοιχία μεταξύ
φθόγγων και
γραφημάτων Έτσι
καταλήγουν στο
συμπέρασμα ότι laquoη
ακριβής γραφή των
λέξεων εξαρτάται
εκτός από τη
φωνημική επιγνωση
του αναγνώστη και
από το
οπτικοορθογραφικό
του λεξικό και τη
μορφολογική του
επίγνωσηraquo
Οι συγγραφείς
παρουσιάζουν
στοιχεία για παρόμοιες
διδακτικές
παρεμβάσεις στην
Ελλάδα και στην δεξιά
στήλη της επόμενης
σελίδας 293
αναφέρονται στη δική
τους εργασία ως μέρος
μιας ευρύτερης
διαχρονικής μελέτης
που περιελάμβανε
πέντε διαδοχικές
μετρήσεις
13
Και η
βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας
επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός
ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση
θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι
laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός
τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για
το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η
αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια
αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα
ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια
14
θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν
ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι
αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια
αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ
έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν
βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό
και στο άλλο
15
Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία
ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον
πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα
χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι
συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους
συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη
και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που
είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα
1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος
16
τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της
κατανομής της ηλικίας
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ
Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα
laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό
τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες
περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές
ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να
πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα
Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι
ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την
ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε
μεγάλη θεωρητική και στατιστική σημασία
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
11
ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ
Στη δεύτερη σελίδα της εργασίας τους οι συγγραφείς προχωρούν σε εννοιολογικούς ορισμούς όπως είναι για παράδειγμα η laquoανάκληση λεξικών αναπαραστάσεωνraquo οι laquoσυγχωνευεμένες φωνολογικές και ορθογραφικές ταυτότητες των λέξεωνraquo το laquoεπίπεδο φωνημικής επίγνωσηςraquo και αναφέρονται σε άλλες σχετικές έρευνες στην βιβλιογραφία
Στην επόμενη ενότητα οι συγγραφείς αναφέρονται στο ελληνικό ορθογραφικό σύστημα σε σχέση με την κατάταξη που έχει αυτό στην ελληνική ταξινόμηση του Seymour και των συνεργατών του και επισημαίνουν την laquoυψηλή ασυμμετρίαraquo μεταξύ ανάγνωσης και ορθογραφίας που έχει η ελληνική γλώσσα
12
Οι συγγραφείς
συνοψίζουν στη σελίδα
292 της εργασίας τους
ότι το ελληνικό
ορθογραφικό σύστημα
χαρακτηρίζεται από
πολυσήμαντη
αντιστοιχία
ταυτόχρονη
αντιστοιχία αλλά και
αναντιστοιχία μεταξύ
φθόγγων και
γραφημάτων Έτσι
καταλήγουν στο
συμπέρασμα ότι laquoη
ακριβής γραφή των
λέξεων εξαρτάται
εκτός από τη
φωνημική επιγνωση
του αναγνώστη και
από το
οπτικοορθογραφικό
του λεξικό και τη
μορφολογική του
επίγνωσηraquo
Οι συγγραφείς
παρουσιάζουν
στοιχεία για παρόμοιες
διδακτικές
παρεμβάσεις στην
Ελλάδα και στην δεξιά
στήλη της επόμενης
σελίδας 293
αναφέρονται στη δική
τους εργασία ως μέρος
μιας ευρύτερης
διαχρονικής μελέτης
που περιελάμβανε
πέντε διαδοχικές
μετρήσεις
13
Και η
βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας
επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός
ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση
θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι
laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός
τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για
το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η
αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια
αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα
ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια
14
θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν
ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι
αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια
αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ
έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν
βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό
και στο άλλο
15
Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία
ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον
πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα
χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι
συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους
συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη
και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που
είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα
1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος
16
τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της
κατανομής της ηλικίας
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ
Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα
laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό
τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες
περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές
ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να
πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα
Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι
ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την
ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε
μεγάλη θεωρητική και στατιστική σημασία
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
12
Οι συγγραφείς
συνοψίζουν στη σελίδα
292 της εργασίας τους
ότι το ελληνικό
ορθογραφικό σύστημα
χαρακτηρίζεται από
πολυσήμαντη
αντιστοιχία
ταυτόχρονη
αντιστοιχία αλλά και
αναντιστοιχία μεταξύ
φθόγγων και
γραφημάτων Έτσι
καταλήγουν στο
συμπέρασμα ότι laquoη
ακριβής γραφή των
λέξεων εξαρτάται
εκτός από τη
φωνημική επιγνωση
του αναγνώστη και
από το
οπτικοορθογραφικό
του λεξικό και τη
μορφολογική του
επίγνωσηraquo
Οι συγγραφείς
παρουσιάζουν
στοιχεία για παρόμοιες
διδακτικές
παρεμβάσεις στην
Ελλάδα και στην δεξιά
στήλη της επόμενης
σελίδας 293
αναφέρονται στη δική
τους εργασία ως μέρος
μιας ευρύτερης
διαχρονικής μελέτης
που περιελάμβανε
πέντε διαδοχικές
μετρήσεις
13
Και η
βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας
επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός
ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση
θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι
laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός
τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για
το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η
αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια
αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα
ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια
14
θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν
ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι
αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια
αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ
έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν
βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό
και στο άλλο
15
Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία
ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον
πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα
χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι
συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους
συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη
και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που
είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα
1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος
16
τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της
κατανομής της ηλικίας
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ
Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα
laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό
τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες
περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές
ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να
πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα
Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι
ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την
ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε
μεγάλη θεωρητική και στατιστική σημασία
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
13
Και η
βιβλιογραφική επισκόπηση συνεχίζεαι με τις έννοιες της laquoαξιοπιστίας
επανεξέτασηςraquo και της laquoτρέχουσας εγκυρότηταςraquo Η εγκυρότητα ενός
ερευνητικού εργαλείου είναι ο βαθμός που αυτό αντανακλά την προς μέτρηση
θεωρητική κατασκευή (εδώ η laquoορθογραφική δεξιότητα) Η εγκυρότητα είναι
laquoτρέχουσαraquo (αλλιώς laquoσύγχρονηraquo) όταν αυτή αναφέρεται στην στενή σχέση ενός
τεστ ορθογραφικής δεξιότητας με ένα άλλο τεστ ορθογραφικής δεξιότητας για
το οποίο γνωρίζουμε ότι μετράει αυτή ακριβώς τη θεωρητική κατασκευή Η
αξιοπιστία από την άλλη μεριά αναφέρεται στον βαθμό που ένα τεστ δίνει ίδια
αποτελέσματα για το ίδιο ποσό της θεωρητικής κατασκευής Για παράδειγμα
ένα θερμόμετρο είναι αξιόπιστο αν δίνει την ίδια μέτρηση για την ίδια
14
θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν
ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι
αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια
αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ
έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν
βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό
και στο άλλο
15
Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία
ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον
πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα
χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι
συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους
συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη
και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που
είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα
1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος
16
τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της
κατανομής της ηλικίας
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ
Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα
laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό
τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες
περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές
ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να
πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα
Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι
ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την
ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε
μεγάλη θεωρητική και στατιστική σημασία
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
14
θερμοκρασία Η αξιοπιστία συνοδεύεται με τον όρο laquoεπανεξέτασηςraquo όταν
ελέγχεται με την επίδοση ενός παρόμοιου τεστ Για παράδειγμα ένα τεστ είναι
αξιόπιστο όταν με αυτό επανεξετάζεις τους ίδιους μαθητές και παίρνεις τα ίδια
αποτελέσματα Δηλαδή όσοι βαθμολογήθηκαν με υψηλό βαθμό στο ένα τεστ
έχουν βαθμολογηθεί με υψηλό βαθμό και στο άλλο κα -αντιστρόφως- όσοι έχουν
βαθμολογηθεί με χαμηλό βαθμό στο ένα έχουν βαθμολογηθεί με χαμηλό βαθμό
και στο άλλο
15
Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία
ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον
πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα
χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι
συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους
συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη
και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που
είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα
1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος
16
τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της
κατανομής της ηλικίας
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ
Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα
laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό
τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες
περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές
ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να
πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα
Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι
ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την
ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε
μεγάλη θεωρητική και στατιστική σημασία
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
15
Τέλος όταν αναφερόμαστε σε laquoστάθμισηraquo εννοούμε τη διαδικασία στην οποία
ένα τεστ (καινούργιο ή προσαρμοσμένο από άλλη γλώσσα) εξετάζεται σε άλλον
πληθυσμό προκειμένου να δούμε αν το τεστ αυτό λαμβάνει υπόψη τα
χαρακτηριστικά του πληθυσμού στον οποίο δίνεται Στη σελίδα 294 οι
συγγραφείς δίνουν στον Πίνακα 1 στοιχεία περιγραφικής στατιστικής για τους
συμμετέχοντες στην έρευνα σε ένα πίνακα διπλής εισόδου κατά σχολική τάξη
και φύλο Η ηλικία των παιδιών εκφράζεται σε μήνες και όχι σε έτη πράγμα που
είναι αναγκαίο από ουσιαστική και ερευνητική άποψη Σε κάθε κελί του Πίνακα
1 στην εργασία των Σιδερίδη κ ά (2008 294) βλέπουμε το μέγεθος του δείγματος
16
τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της
κατανομής της ηλικίας
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ
Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα
laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό
τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες
περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές
ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να
πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα
Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι
ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την
ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε
μεγάλη θεωρητική και στατιστική σημασία
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
16
τον μέσο όρο ακολουθούμενο από την τυπική απόκλιση και το εύρος της
κατανομής της ηλικίας
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ
Στη ενότητα laquoΜέθοδοςraquo [συλλογής δεδομένων] και στην υποενότητα
laquoΣυμμετέχοντεςraquo διαβάζουμε ότι τα σχολεία επιλέγηκαν με laquoμη συστηματικό
τρόπο ο οποίος εξυπηρετούσε τη συλλογή δεδομένων από τις συγκεκριμένες
περιοχές hellipraquo Αργότερα δίδονται τα ποσοστά των σχολείων σε αστικές
ημιαστικές και αγροτικές περιοχές καθώς και τα κριτήρια που θα έπρεπε να
πληρούν οι μαθητές των σχολείων αυτών για να συμμετάσχουν στην έρευνα
Ένα σημαντικό στοιχείο εδώ είναι η laquoέγγραφη συναίνεση των γονέωνraquo Οι
ερευνητές συμπεριέλαβαν στο δείγμα τους και 48 μαθητές που δεν είχαν την
ελληνική ως μητρική γλώσσα πράγμα που όπως θα δούμε παρακάτω είχε
μεγάλη θεωρητική και στατιστική σημασία
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
17
Στη
σελίδα 295 οι Σιδερίδης κά (οπ) αναφέρουν τον τρόπο βαθμολόγησης της
ορθογραφικής ικανότητας των μαθητών και τη διαδικασία του τεστ Αναφέρουν
επίσης το τεστ νοητικού επιπέδου του Wechsler Αναφέρονται κατόπιν στον βαθμό
εσωτερικής αξιοπιστίας (συνέπειας) των επιμέρους λέξεων της δοκιμασίαςraquo και
αναφέρουν ότι αυτός υπήρξε ικανοποιητικός (α του Cronbach)
Ο ΔΕΙΚΤΗΣ ΑΛΦΑ
Ο εν λόγω δείκτης προτάθηκε το 1951 από τον Αμερικανό ψυχολόγο και
στατιστικό Lee Joseph Cronbach ο οποίος πέρα από τον δείκτη αυτόν εισήγαγε
και τη Θεωρία της Γενικευσιμότητας Η κεντρική ιδέα του δείκτη άλφα είναι ότι αν
τα επιμέρους ερωτήματα ενός τεστ μετρούν την ίδια θεωρητική κατασκευή τότε
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
18
αυτή θα laquoπροκαλείraquo υψηλό βαθμό συνάφειας ανάμεσα στα ερωτήματα Από
μαθηματική άποψη ο α είναι ένα κλάσμα που έχει στον αριθμητή το άθροισμα
των διακυμάνσεων των επί μέρους ερωτημάτων και στον παρονομαστή τη
συνολική διακύμανση (η ποσότητα του αριθμητή συν την συνδιακύμανση των
ερωτημάτων) Το εν λόγω κλάσμα αφαιρείται από τη μονάδα και
πολλαπλασιάζεται επί έναν παράγοντα που έχει να κάνει με το πλήθος των
ερωτημάτων Αν δεν υπάρχει συνδιακύμανση το κλάσμα γίνεται μονάδα (ο
αριθμητής είναι ίσος με τον παρονομαστή) και ο άλφα γίνεται μηδέν αφού το
κλάσμα αφαιρείται από τον αριθμό 1 Αν η συνδιακύμανση μεταξύ των
ερωτημάτων είναι μεγάλη ο παρονομαστής μεγαλώνει το κλάσμα μικραίνει και
ο δείκτης πλησιάζει τη μονάδα αφού η ποσότητα που αφαιρείται από το 1 είναι
μικρή Αν έχουμε ανάμεικτη θετική και αρνητική συνδιακύμανση ανάμεσα στα
ερωτήματα και παράλληλα αυτή η συνδιακύμανση είναι σχετικά μεγάλη (πχ
άσχετα μεταξύ τους ερωτήματα ή κακές επιδόσεις) ο άλφα μπορεί να εμφανιστεί
και με αρνητικό πρόσημο Πάντως υψηλή και θετική τιμή του άλφα δηλαδή
υψηλός βαθμός εσωτερικής αξιοπιστίας δεν σημαίνει αναγκαστικά ότι έχουμε
μία και μόνο θεωρητική κατασκευή στο τεστ Τέλος ο δείκτης άλφα έχει την ίδια
λογική με εκείνη των δεικτών μεγέθους της επίδρασης γιατί αν αφαιρέσουμε από
τη μονάδα το τετράγωνο του α παίρνουμε τη διακύμανση που δεν εξηγείται Οι
συγγραφείς στο κάτω δεξιά μέρος της σελίδας 295 παρουσιάζουν τους δείκτες
συνάφειας μεμονωμένων ερωτημάτων (εδώ λέξεων) με το σύνολο του τεστ ένα
αποτέλεσμα που εμφανίζεται στο SPSS στη διαδικασία Reliability Analysis και
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
19
αναφέρουν ότι αυτοί είναι για όλες τις λέξεις πάνω από 050 (πράγμα φυσικό κατά
τη γνώμη μας)
Ο ΔΕΙΚΤΗΣ r ΤΟΥ PEARSON ΚΑΙ Ο ΔΕΙΚΤΗΣ ΤΟΥ SPEARMAN
Στη συνέχεια οι ερευνητές χρησιμοποίησαν τον δείκτη (ρο rho) του Spearman
για να διερευνήσουν αν η σειρά με την οποία επιδόθηκαν οι λέξεις στους μαθητές
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
20
ήταν σε συμφωνία με τον βαθμό δυσκολίας τους Ο δείκτης χρησιμοποιείται
εναλλακτικά αντί για τον δείκτη r του Pearson όταν τα δεδομένα δεν έχουν
κανονική κατανομή ή όταν η σχέση που τα συνδέει δεν είναι γραμμική ή όταν
έχουμε τακτικές τιμές Μάλιστα ο Charles Edward Spearman o Άγγλος
ψυχολόγος που πρότεινε τον εν λόγω δείκτη έγινε γνωστός για τη θεωρία του
περί ύπαρξης ενός γενικού παράγοντα νοημοσύνης καθώς και για τις εργασίες
του πάνω στην Ανάλυση Παραγόντων Ο Spearman ήρθε σε αντιπαράθεση με τον
Pearson σχετικά με το αν ο δείκτης ήταν το ίδιο χρήσιμος με τον δείκτη r
Σε γενικές γραμμές ο r είναι ένα κλάσμα που έχει στον αριθμητή τη
συνδιακύμανση των μεταβλητών δηλαδή το άθροισμα των γινομένων των
αποστάσεων των αντίστοιχων τιμών των δύο μεταβλητών από τον μέσο όρο
καθεμιάς και στον παρονομαστή το γινόμενο των διακυμάνσεων ώστε να παίρνει
τιμές από -1 ως +1 Ο δείκτης r είναι από τους πιο σπουδαίους δείκτες συνάφειας
και συνδέεται με την ανάλυση διακύμανσης και τη διαφορά μέσων όρων των
μεταβλητών Ονομάζεται δε και laquoγινόμενο των ροπώνraquo διότι βασίζεται στα
γινόμενα των αποστάσεων των τιμών από τον μέσο όρο τους (laquoροπήraquo είναι μια
έννοια στη Νευτώνεια φυσική που ισούται με δύναμη επί απόσταση) Ο δείκτης ρ
του Spearman από την άλλη μεριά έχει στον αριθμητή το άθροισμα των
τετραγώνων των διαφορών των τακτικών τιμών των δύο μεταβλητών (laquoτακτικέςraquo
γιατί έχουν καταταχθεί σε πρώτη δεύτερη τρίτη κλπ ανεξάρτητα από την τιμή
τους) και στον παρονομαστή το ανώτατο δυνατό άθροισμα των διαφορών των
τακτικών τιμών Το όλο κλάσμα αφαιρείται από τη μονάδα αφού πρώτα ο
αριθμητής του πολλαπλασιαστεί με 6 Το laquo6raquo έχει να κάνει με την ανάγκη το
κλάσμα να παίρνει τιμές μεταξύ του -1 και του 1 Ο παρονομαστής του ρ είναι
n(n2-1)3 και η ευθεία που περνάει από τα σημεία (0 1) και (n(n2-1)3 -1) έχει κλίση
-6n(n2-1) και αποτέμνουσα ίση με 1
Ο Πίνακας 2 στη σελίδα 296 της Ψυχολογίας περιέχει μέσους όρους και τυπικές
αποκλίσεις για αγόρια και κορίτσια σε τάξεις του Δημοτικού σχολείου Με laquoΝraquo
σημειώνεται το μέγεθος του δείγματος ενώ οι συγγραφείς παρουσιάζουν τα
εκατοστημόρια των κατανομών των σωστών απαντήσεων Το p-οστό
εκατοστημόριο μιας κατανομής είναι εκείνη η τιμή η οποία όταν οι τιμές
διαταχθούν σε αύξουσα σειρά έχει από αριστερά της το p των δεδομένων και
από δεξιά της το υπόλοιπο (100-p) Το πεντηκοστό τεταρτημόριο είναι η
διάμεσος η τιμή που έχει τις μισές τιμές μεγαλύτερες από αυτήν και τις μισές
τιμές μικρότερη από αυτήν Με τον Πίνακα 2 οι συγγραφείς κατορθώνουν να μας
δώσουν μια εικόνα των κατανομών
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
21
ΤΑ ΚΡΙΤΗΡΙΑ F ΚΑΙ t
Οι στατιστικά laquoσημαντικές διαφορές μεταξύ
των δύο φύλωνraquo όπως γράφουν οι συγγραφείς
στη σελίδα 296 εξακριβώθηκαν με το κριτήριο
F Το εν λόγω κριτήριο λέγεται έτσι επειδή
ακολουθεί την κατανομή F η οποία με τη σειρά
της ονομάστηκε έτσι από το αρχικό του
επιθέτου του Sir Ronald Fisher που το
πρωτοκατασκεύασε για τον έλεγχο κυρίως της
ισότητας των διακυμάνσεων Εδώ όμως το F
τεστ χρησιμοποιείται από τους συγγραφείς ως
εναλλακτικό του t τεστ για να διερευνηθούν οι
διαφορές ανάμεσα στα αγόρια και στα
κορίτσια Το t τεστ πήρε το όνομά του από τον
laquoφοιτητήraquo (student) όπως υπέγραψε το 1908 τη
σχετική εργασία του ο χημικός και στατιστικός
William Sealy Gosset στο περιοδικό Biometrika
που διήυθυνε ο Karl Pearson Ο Gosset
εργαζόνταν για τη εταιρεία μπύρας Guinness
στο Δουβλίνο Η εν λόγω εταιρεία
προσλάμβανε με καλό μισθό τους κορυφαίους απόφοιτους της Οξφόρδης και του
Κέιμπριτζ αλλά τους απαγόρευε να δημοσιεύουν επιστημονικά κείμενα Έτσι ο
Gosset δημοσίευσε με το ψευδώνυμο laquoφοιτητήςraquo
Με το t τεστ ελέγχουμε τη στατιστική σημαντικότητα της διαφοράς δύο μέσων
όρων Το t τεστ είναι κι αυτό ένα κλάσμα το οποίο έχει στον αριθμητή τη διαφορά
των μέσων όρων και στον παρονομαστή ένα κάποιο μέτρο της κοινής
διακύμανσης ή των διαφορετικών διακυμάνσεων των δύο γκρουπ Όσο πιο
μεγάλη είναι η διαφορά των μέσων όρων και όσο πιο κοντά στον δικό τους η
καθεμιά μέσο όρο είναι οι τιμές των δύο γκρουπ που συγκρίνουμε τόσο
μεγαλύτερο είναι το t τεστ και είναι πιθανότερη η διάψευση της μηδενικής
υπόθεσης Το F τεστ από την άλλη μεριά είναι και αυτό ένα κλάσμα το οποίο
όμως έχει στον αριθμητή τη διακύμανση μεταξύ των μέσων όρων όλων των
γκρουπ (συνήθως περισσότερων των δύο) και στον παρονομαστή τη συνολική
διακύμανση όλων των τιμών ανεξαρτήτως γκρουπ Αν η διακύμανση στον
αριθμητή είναι μεγάλη σε σχέση με τη διακύμανση στον παρονομαστή η τιμή του
F είναι πολύ πιθανό να είναι στατιστικώς σημαντική Οι αγκύλες δεξιά από το
γράμμα F (βλ Σιδερίδης κ ά 2008 296) περικλείουν τους βαθμούς ελευθερίας και
είναι σημαντικοί γιατί η δειγματοληπτική κατανομή του F στη βάση της οποίας
ελέγχουμε την τιμή που βρήκαμε και απορρίπτουμε ή αποτυγχάνουμε να
απορρίψουμε τη μηδενική υπόθεση είναι διαφορετική για διαφορετικούς βαθμούς
ελευθερίας Όπως είδαμε στην σελίδα Σφάλμα Δεν έχει οριστεί σελιδοδείκτης
οι βαθμοί ελευθερίας είναι πόσα στοιχεία σε μια στατιστική ανάλυση είναι
ελεύθερα να διαφέρουν Στην ΑνάλυσηΔιακύμανσης (ANOVA) έχουμε δύο
Σχήμα 2 Διδιάστατη κανονική
κατανομή με δύο κατηγορίες ανά
μεταβλητή
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
22
βαθμούς ελευθερίας Ο πρώτος έστω k εξαρτάται από τον ερευνητικό
σχεδιασμό Ο δεύτερος είναι στην ουσία το μέγεθος του δείγματος πλην τους
βαθμούς ελευθερίας του ερευνητικού σχεδιασμού Γενικά σε σύνθετους
ερευνητικούς σχεδιασμούς ανάλυσης διακύμανσης τα γκρουπ για τον
υπολογισμό της διακύμανσης στον αριθμητή του F είναι τόσα όσες είναι οι
δυνατές επιμέρους περιπτώσεις Στη δική μας περίπτωση έχουμε συνολικά στην
έρευνα k=10 περιπτώσεις 2 για το φύλο 5 για κάθε μία από τις πέντε σχολικές
τάξεις Στον παρονομαστή του κριτηριου F δηλαδή στη συνολική διακύμανση οι
βαθμοί ελευθερίας είναι n k όπου n το μέγεθος του δείγματος Στην περίπτωση
που μελετάμε εδώ έχουμε μόνο δύο μέσους όρους και έτσι στον αριθμητή έχουμε
2-1=1 βαθμούς ελευθερίας Έτσι η διακύμανση στον αριθμητή είναι απλώς η
διαφορά των δύο μέσων όρων Στην περίπτωση αυτή η τιμή του κριτηριου F είναι
η τιμή του κριτηρίου t υψωμένη στο τετράγωνο Οι συγγραφείς χρησιμοποίησαν
το κριτήριο F και έλεγξαν επίσης την αλληλεπίδραση μεταξύ φύλου και τάξης
Και αυτή η αλληλεπίδραση βρέθηκε μη στατιστικώς σημαντική
ΑΝΙΧΝΕΥΣΗ ΑΠΛΩΝ ΔΟΜΩΝ
Στην επόμενη ενότητα οι συγγραφείς (Σιδερίδης κά 2008) προχωρούν στην
laquoανίχνευση απλών δομών ή την ανίχνευση της κατασκευαστικής δομικής
εγκυρότητας του ψυχομετρικού εργαλείου μέσω της Ανάλυσης Κυρίων
Συνιστωσών (Principal Components Analysis) που είδαμε κι εμείς Η ανάλυση αυτή
ανήκει στην κλασική θεωρία των μετρήσεων και η χρήση της εδώ είναι ένα
παράδειγμα του πώς οι δύο θεωρίες η κλασική και η νέα μπορούν να
συνεργάζονται Η χρήση της Ανάλυσης Κύριων Συνιστωσών χρησιμοποιείται εδώ
διότι στο συγκεκριμένο τεστ υποτίθεται ότι μόνο μία θεωρητική κατασκευή
laquoευθύνεταιraquo για τη διακύμανση στην κατανομή των σωστών απαντήσεων των
μαθητών Αυτή η κατασκευή πρέπει είναι η laquoορθογραφική ικανότηταraquo Τυχόν
ύπαρξη κι άλλων λανθανουσών μεταβλητών περα από την ορθογραφική
ικανότητα θα έθετε σε κίνδυνο την αξιοπιστία των μετρήσεων
Η ύπαρξη μιας και μόνης διάστασης
είναι πολύ σημαντικό ζήτημα στην
κατασκευή ενός τεστ Υποτίθεται ότι
η κλίμακα μετράει μία και μόνη
λανθάνουσα μεταβλητή Ένας
τρόπος να το δει κανείς αυτό είναι να
μελετήσει τη δομή της
συνδιακύμανσης ανάμεσα στα
ερωτήματα του τεστ Οι συγγραφείς
αναφέρουν στη σελίδα 297 ότι ένας
τρόπος για να ελεγχθεί αυτό θα ήταν
μέσω του λογισμικού EQS 61 και της
χρήσης πολυχωρικών συντελεστών συνάφειας Το λογισμικό EQS επικεντρώνεται
Σχήμα 3 Διδιάστατη κανονική κατανομή με
τέσσερις τεχνητές κατηγορίες ανά
μεταβλητή
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
23
στην κατασκευή δομικών μοντέλων Τα δομικά μοντέλα είναι ένα σύνολο
τεχνικών για την διερεύνηση σχέσεων μεταξύ λανθανουσών και
παρατηρούμενων μεταβλητών Οι συντελεστές συνάφειας αποτελούν τη βάση
για την κατασκευή των εν λόγω μοντέλων Στην έρευνα που διαβάζουμε
παρατηρούμενες μεταβλητές είναι η ορθή ή η λανθασμένη γραφή των 60 λέξεων
ενώ η μόνη υποτιθέμενη λανθάνουσα μεταβλητή είναι η ορθογραφική ικανότητα
των μαθητών Μέσω της τελευταίας εμφανίζεται η ορθή γραφή των λέξεων1 και
laquoεξηγείταιraquo η διακύμανση μεταξύ ορθής και λανθασμένης γραφής Οι 60 λέξεις
του τεστ θα σχημάτιζαν συνολικά 1770 ζευγάρια αν παίρνονταν ανά δύο Κάθε
ζευγάρι θα σχημάτιζε έναν laquoχώροraquo με τέσσερις περιπτώσεις (α) και οι δύο λέξεις
να είναι γραμμένες ορθά (β) και οι
δύο λέξεις να είναι γραμμένες
λάθος (γ) σωστή η πρώτη λέξη και
λάθος η δεύτερη και (δ) σωστή η
δεύτερη λέξη και λάθος η πρώτη
Ο συντελεστής συνάφειας μεταξύ
της επιτυχίας ή αποτυχίας στην
ορθή γραφή δύο λέξεων σ λαμβάνει
υπόψη του το γεγονός ότι ο
διαχωρισμός laquoσωστό ndash λάθοςraquo είναι
στην ουσία η αποτύπωση ενός
παράγοντα που ακολουθεί την
κανονική κατανομή Αυτός ο
παράγοντας είναι φυσικά η
ορθογραφική ικανότητα Έτσι οι
δύο λέξεις ως ζευγάρι πλέον
ακολουθούν τη διδιάστατη
κανονική κατανομή η οποία
εμφανίζεται στον τριδιάστατο
χώρο στο Σχήμα 2 και στο Σχήμα 3
Γενικά οι laquoπολυχωρικοίraquo
συντελεστές λαμβάνουν υπόψη
τους την τεχνητή κατάτμηση
1Πηγές για τη λογική των δομικών μοντέλων υπάρχουν στο διαδίκτυο (βλ
httpdavidakennynetcmcausalmhtm) καθώς και στο περιοδικό Structural Equation Modeling του οίκου Taylor
and Francis
Σχήμα 4 Καρτεσιανό σύστημα συντεταγμένων
και δύο κύριες συνιστώσες στα δεδομένα
Σχήμα 5 Scree test για την απόφαση του
πόσες κύριες συνιστώσες θα διατηρηθούν
στο μοντέλο
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
24
μεταβλητών (κανονικές κατανομές) σε δύο η περισσότερες κατηγορίες Στο
Σχήμα 3 εμφανίζεται η διδιάστατη κανονική κατανομή και οι τέσσερις κατηγορίες
κάθε μιας μεταβλητής Για τον υπολογισμό των πολυχωρικών μεταβλητών έχουν
προταθεί πολλοί αλγόριθμοι ενώ ειδικά για τους τετραχωρικούς έχει
υποστηριχθεί ότι υπό προϋποθέσεις θα μπορούσε να χρησιμοποιηθεί αντί για
αυτούς κάποιος απλός συντελεστής συνάφειας για κατηγορικές μεταβλητές με
δύο όμως κατηγορίες έκαστη (Kolenikov amp Angeles 2004) Ο υπολογισμός του
τετραχωρικού συντελεστή συνάφειας έχει συζητηθεί ευρέως στην στατιστική βιβλιογραφία (βλ
Divgi 1979 Manal 2002 Bonet amp Price 2005) Η πιο κοινή μέθοδος για την προσέγγισή του είναι
μέσω του συντελεστή φ Στην περίπτωση αυτή ο τετραχωρικός συντελεστής rt είναι το συνημίτονο
της ποσότητας π∙radicβγ∕radicαδ+radicβγ όπου α β γ δ είναι τα ποσοστά των μετρήσεων στα κελιά ενός
πίνακα 2 επί 2 που σχηματίζονται από το πρώτο το δεύτερο το τρίτο και το τέταρτο τεταρτημόριο
ενός κύκλου που ορίζεται από τις γραμμές διχοτόμησης των κατανομών δύο συσχετιζόμενων
ερωτημάτων (Bouvier Perry amp Michael 1954)
SCREE ΤΕΣΤ
Άλλο ένα κριτήριο για να δει κανείς αν ένας και μόνο παράγοντας laquoεξηγείraquo τη
διακύμανση σε ένα σύνολο ερωτημάτων είναι το Scree τεστ ένα οπτικό τεστ το
οποίο παράγεται κατά τη διαδικασία της διερευνητικής ανάλυσης παραγόντων ή
ορθότερα της διερευνητικής ανάλυσης κυρίων συνιστωσών Το εν λόγω τεστ έχει
πάρει το όνομά του από το σχήμα που έχουν τα αμμώδη υλικά όταν πέφτουν από
ψηλά και συσσωρεύονται σε ένα ldquoscreerdquo ή στα ελληνικά σε ένα laquoκόρημαraquo
Κεντρική ιδέα της ανάλυσης συνιστωσών είναι ότι η συνολική διακύμανση σε ένα
σύνολο παρατηρήσεων μπορεί να παρουσιαστεί με τη βοήθεια συνιστωσών οι
οποίες είναι λιγότερες αριθμό από τις αρχικές μεταβλητές και laquoεξηγούνraquo ένα
σημαντικό μέρος της διακύμανσης Για παράδειγμα στο Σχήμα 4 βλέπουμε ένα
σύνολο παρατηρήσεων σε ένα διάγραμμα διασποράς Είδαμε στη σελίδα 28 πώς
υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα ενός τετραγωνικού πίνακα
Στην παρούσα έρευνα ο τετραγωνικός πίνακας έχει διαστάσεις 6060 αφού τόσες
είναι οι λέξεις Στο Σχήμα 4 η δομή των δεδομένων που περιγράφεται στο
καρτεσιανό σύστημα αξόνων y και x μπορεί να παρουσιαστεί με τη βοήθεια των
συνιστωσών v1 και v2 Τα ιδιοδιανύσματα των v1 και v2 είναι η διεύθυνση των
νέων αξόνων αναφοράς ενώ η ιδιοτιμή του καθενός είναι το μέτρο τους Η ιδιοτιμή
του v1 είναι πολύ μεγαλύτερη από εκείνη του v2 γιατί η πρώτη laquoεξηγείraquo πολύ
μεγαλύτερη διακύμανση Αν επιλέγαμε να μην είχαμε τον v2 τα δεδομένα θα
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
25
μπορούσαν να παρουσιαστούν ως προβολές στον v1 με κάποια θυσία ως προς τη
συνολική διακύμανση που για να παρουσιαστεί πλήρως απαιτεί και τους δύο
άξονες Στην περίπτωση αυτή όλες οι τιμές θα προβάλλονταν στον v1 ενώ η
διακύμανση στον v2 θα είχε χαθεί Αν αυτό το φανταστούμε όχι σε δύο αλλά σε n
διαστάσεις
παίρνουμε μια
ιδέα για τη
χρησιμότητα της
laquoΚύριων
Συνιστωσώνraquo ως
μεθόδου μείωσης
των διαστάσεων
σε έναν χώρο
διαστάσεων n
Το Scree τεστ
σύμφωνα με την
εμπειρική
πρακτική
προτείνει να
κρατάμε στην
ανάλυση μία
λιγότερη
συνιστώσα από
όσες
υπερβαίνουν το
laquoμανίκιraquo του
σχήματος το
σημείο δηλαδή
στο οποίο το
σχήμα
οριζοντιώνεται
Στο παράδειγμα
(Σχήμα 5) η
οριζοντίωση διαφαίνεται στην τέταρτη συνιστώσα πράγμα που σημαίνει ότι
κρατάμε τρεις παράγοντες (για την ακρίβεια laquoσυνιστώσεςraquo)
Στην περίπτωση της έρευνας των Σιδερίδη κ ά (2008) όμως τα διαγράμματα
κορήματος που παρουσιάζονται στη σελίδα 297 δεν αναφέρονται στην αρχική
διακύμανση των 60 λέξεων και στους πολυχωρικούς (ενδεχομένως) συντελεστές
τους όπως θα απαιτούσε η Ανάλυση Κύριων Συνιστωσών αλλά στην απομένουσα
διακύμανση αφού πρώτα έχει εφαρμοστεί στις λέξεις του τεστ το μοντέλο Rasch
για το οποίο θα μιλήσουμε σε λίγο Η διακύμανση στον κάθετο άξονα είναι η
εναπομένουσα διακύμανση η οποία δίνεται από το Winsteps ως ποσοστό αλλά σε
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
26
λογαριθμική κλίμακα πράγμα που σημαίνει οι διαφορές στο ανώτερο τμήμα του
κάθετου άξονα είναι πολύ πιο σημαντικές από τις διαφορές στο κάτω μέρος του
ίδιου άξονα Στα Scree test των Σιδερίδη κ ά (2008) βλέπουμε τη συνολική
διακύμανση η οποία σημειώνεται στο εκατό τοις εκατό με το γράμμα ldquoΤrdquo (από το
ldquoTotalrdquo) Στα σχήματα φαίνεται επίσης για κάθε σχολική τάξη (α) η
επεξηγούμενη διακύμανση μέσω του μοντέλου Rasch (σημειώνεται με ldquoMrdquo από το
ldquoModeledrdquo) δηλαδή η διακύμανση μεταξύ των λέξεων αν σε αυτές υπήρχε μόνο
μία διάσταση όπως είναι η προϋπόθεση του μοντέλου Rasch Φαίνεται επίσης και
η μη επεξηγούμενη διακύμανση από το μοντέλο Rasch η οποία σημειώνεται
ωςldquoUrdquo από το αρχικό της λέξης ldquoUnexplainedrdquo)
Απειλή για την μονοδιαστατικότητα του τεστ δεν θα αποτελούσε το ποσοστό της
επεξηγούμενης προς τη μη επεξηγούμενη διακύμανση αλλά και η ύπαρξη
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
27
συνιστωσών με ποσοστό διακύμανσης πάνω από 2 της συνολικής αφού
χρειάζονται τουλάχιστον 2 ερωτήματα ώστε η συνιστώσα να κατοχυρωθεί ως
laquoδιάστασηraquo Σε καμία σχολική τάξη από τις τέσσερις που παρουσιάζονται στην
Εικόνα 1 του κειμένου των Σιδερίδη κ ά (2008) οι συνιστώσες U1 U2 δεν
υπερέβησαν το 2 πράγμα που σημαίνει ότι η προϋπόθεση της
μονοδιαστατικότητας στην έρευνα που μελετάμε ισχύει
Στον Πίνακα 3 στη σελίδα 298 της εργασίας τους οι ερευνητές (Σιδερίδης κ ά 3008)
παρουσιάζουν τους συντελεστές συνάφειας των 60 λέξεων με ένα υποτιθέμενο
δεύτερο παράγοντα πέρα από την ορθογραφική ικανότητα Φαίνεται ότι μόνο
λίγες λέξεις φανερώνουν μια τέτοια πιθανή δομή Για παράδειγμα η λέξη
laquoκυνηγητόraquo μοιάζει να επηρεάζεται και από έναν δεύτερο παράγοντα αφού ο
συντελεστής συνάφειας με έναν τέτοιο πιθανό παράγοντα είναι για την Β΄ τάξη
073 Η λέξη laquoηθοποιόςraquo επίσης επηρεάζεται πιθανώς και από έναν δεύτερο
παράγοντα αφού στη Β και τη Γ΄ τάξη οι συντελεστές συνάφειας είναι 070 και
036 αντιστοίχως (θα έπρεπε να είναι κοντά στο μηδέν σε όλες τις λέξεις) Οι
συγγραφείς στηρίζουν βιβλιογραφικά τη θέση τους περί ύπαρξης ενός και μόνο
παράγοντα ενώ αναφέρουν ότι η λέξη laquoαποδεικνύωraquo θεωρείται ως laquoσταθεράraquo για
τον παράγοντα της ορθογραφικής ικανότητας αφού η συνάφειά του με κάποιον
υποτιθέμενο παράγοντα πέραν της ορθογραφικής ικανότητας είναι ουσιαστικά
μηδέν
ΤΟ ΜΟΝΤΕΛΟ RASCH
Στη συνέχεια οι συγγραφείς προχωρούν στην κύρια πλευρά της ανάλυσής τους
και πιο συγκεκριμένα στην ανάλυση του βαθμού δυσκολίας των λέξεων μέσω του
μοντέλου Rasch
Στη σχετική ενότητα (Σιδερίδης κ ά 299) εξηγούν τη λογική της ανάλυσης κατά
Rasch Σε γενικές γραμμές εξηγούμε εμείς τα μοντέλα Rasch υπολογίζουν την
πιθανότητα να απαντήσει κάποιος μαθητής j σωστά σε μια ερώτηση i (εδώ να
γράψει σωστά την λέξη) με δεδομένη την ορθογραφική του ικανότητα αλλά και
τη δυσκολία της συγκεκριμένης λέξης Αυτό υπολογίζεται από το πώς έχουν
απαντήσει οι άλλοι συμμετέχοντες μαθητές στις ίδιες ερωτήσεις (λέξεις) Στην
ιδανική περίπτωση οι μαθητές απαντούν σωστά μόνο σε ερωτήσεις που
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
28
αντικατοπτρίζουν το επίπεδο της ικανότητάς τους καθώς και σε όλες τις
ευκολότερες αλλά όχι στις δυσκολότερες σε σχέση με το επίπεδο της ικανότητάς
τους Στην περίπτωση αυτή οι ερωτήσεις λέγεται ότι σχηματίζουν μια κλίμακα
Guttman στην οποία η ικανότητα προχωράει βήμα-βήμα με την δυσκολία Για
αυτό και το σχετικό λογισμικό για τα μοντέλα Rasch έχει τη φράση ldquostepsrdquo στο
λογότυπό του και ονομάζεται ldquoWinstepsrdquo Κάθε μαθητής ανάλογα με την
ικανότητά του κάνει laquoβήματαraquo σωστών απαντήσεων Το μοντέλο Rash
μοντελοποιεί τη πιθανότητα ώστε οι μαθητές να κάνουν αυτά τα laquoβήματαraquo που
κάνουν ή που πρόκειται να κάνουν Ο τρόπος με τον οποίο τα μοντέλα αυτά
χειρίζονται την πιθανότητα αναφέρεται στις παραγράφους που ακολουθούν
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
29
Γενικά ο πιο συνηθισμένος ορισμός της πιθανότητας p είναι ότι αυτή εκφράζεται
με ένα κλάσμα που έχει στον αριθμητή κάποιο επιθυμητό ενδεχόμενο και στον
παρονομαστή όλα τα πιθανά ενδεχόμενα μαζί Η πιθανότητα παίρνει τιμές στο
διάστημα (0 1) με το 0 να σημαίνει μηδενική πιθανότητα και το 1 να σημαίνει
βεβαιότητα Η πιθανότητα να φέρει κανείς laquo3raquo με ένα ζάρι είναι μία στις έξι
δηλαδή περίπου 0167 ή 17 τοις εκατό Στην κατασκευή στατιστικών μοντέλων
χρησιμοποιείται αντί της πιθανότητας p μεταξύ άλλων και ο λογάριθμος του
λόγου των σχετικών πιθανοτήτων δηλαδή η πιθανότητα να έρθει laquo3raquo δια την
πιθανότητα να μην έρθει laquo3raquo Ο λόγος αυτός εκφράζεται λογαριθμικά όπου
λογάριθμος (log) είναι ο εκθέτης που πρέπει να υψώσουμε τον λόγο των
πιθανοτήτων για να βρούμε έναν συγκεκριμένο αριθμό την βάση του
λογάριθμου Η έκφραση του λογαρίθμου των λόγων των πιθανοτήτων γράφεται
ως log1
p
p
και ονομάστηκε ldquologitrdquo από τον γιατρό και στατιστικολόγο Joseph
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
30
Berkson που έγραψε σχετικά το 1944 Στη logit χρησιμοποιούμε ως βάση των
λογάριθμων τον αριθμό 271828e και συμβολίζουμε κάποιες φορές με ldquolnrdquo που
σημαίνει laquoφυσικός λογάριθμοςraquo αντί για ldquologrdquo που θα μπορούσε να εννοεί μια
άλλη βάση Το μοντέλο Rasch δεν κάνει τίποτα άλλο παρά να μοντελοποιεί τον
logit δηλαδή τις λογιστικές μονάδες Βασική υπόθεση του μοντέλου Rasch είναι
ότι η πιθανότητα ορθής απάντησης σε μία ερώτηση (item) με δύο ενδεχόμενα
(σωστό ή λάθος) εξαρτάται από την ικανότητα του μαθητή και τη δυσκολία της
ερώτησης με την προϋπόθεση βέβαια ότι η απάντηση είναι μόνο θέμα
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
31
ικανότητας (ένας παράγοντας) και όχι θέμα άλλων παραγόντων (πχ οι συνθήκες
διεξαγωγής του τεστ) Οι συγγραφείς παρουσιάζουν στη σελίδα 299 στον
μαθηματικό τύπο του μοντέλου Rasch και εξηγούν με παραδείγματα στην
επόμενη σελίδα ότι niP [η πιθανότητα p του μαθητή n που γράφει τη λέξη i]
1niX [να γράψει σωστά τη συγκεκριμένη λέξη i] )n iB D [με δεδομένη laquoraquo την
ικανότητα B του μαθητή n και τη δυσκολία D της λέξης i] είναι ( )
( )1
n i
n i
D
D
e
e
[έτσι
γίνεται ο τύπος log1
p
p
αν λύσουμε ως προς την πιθανότητα p και λάβουμε
υπόψη ότι η πιθανότητα ορθής απάντησης είναι ικανότητα πλην την δυσκολία]
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
32
Η Εικόνα 2 στη σελίδα 300 της εργασίας των Σιδερίδη κά (2008) είναι δείχνει με
μονάδες logit τη δυσκολία των ερωτήσεων και ταυτόχρονα το πώς απάντησαν οι
μαθητές σε αυτές Η διακεκομμένη γραμμή στη μέση της Εικόνας 2 στην έρευνα
των Σιδερίδη κά χωρίζει τους μαθητές στrsquo αριστερά και τις ερωτήσεις στα δεξιά
Οι ερωτήσεις έχουν καταταχθεί κατά σειρά δυσκολίας από τις εύκολες στο κάτω
μέρος της Εικόνας 2 στις δύσκολες στο επάνω μέρος της Ο μέσος όρος δυσκολίας
εμφανίζεται με ldquoΜrdquo στα δεξιά της γραμμής ενώ η μία και οι δύο τυπικές
αποκλίσεις στη δυσκολία εμφανίζονται με ldquoSrdquo και ldquoTrdquo αντιστοίχως Κοντά στον
μέσο όρο είναι εικοστή έκτη λέξη Πιο δύσκολη ερώτηση εμφανίζεται να είναι η
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
33
εξηκοστή ενώ φαίνεται στο στην Εικόνα 2 ότι ελάχιστοι μαθητές απαντούν στις
πιο δύσκολες λέξεις
Στη σελίδα 301 οι συγγραφείς ελέγχουν την αρχική κατάταξη των λέξεων από
πλευράς δυσκολίας και καταγράφουν αυτές που laquoπαρουσίασαν αποκλίσεις από
τις προσδοκίες του μοντέλου Guttmanraquo (όπ 301) Στην έννοια του μοντέλου
Guttman αναφερθήκαμε κι εμείς στη σελίδα 28 και θυμίζουμε εδώ ότι σύμφωνα
με αυτό οι μαθητές απαντούν στις ερωτήσεις που ταιριάζουν με το επίπεδο
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
34
ικανότητάς τους και σε όλες τις προηγούμενες (που είναι υποτίθεται ευκολότερες)
αλλά όχι στις επόμενες που είναι υποτίθεται δυσκολότερες
Στην δεύτερη παράγραφο της δεξιάς στήλης της σελίδας 301 οι συγγραφείς
(Σιδερίδης κ ά 2008) παρουσιάζουν στοιχεία σχετικά με το κατά πόσο το μοντέλο
Rasch προσαρμόζεται στα δεδομένα Αυτό το κάνουν με δύο δείκτες τον δείκτη
Outfit και τον δείκτη Infit οι οποίοι παρουσιάζονται στη σελίδα 302 της εργασίας
των Σιδερίδη κά (2008) ως σχεδιαγράμματα φυσαλίδων Τα σχεδιαγράμματα
αυτά θα τα εξετάσουμε μόλις δούμε τους δείκτες καλής προσαρμογής του
μοντέλου και συγκεκριμένα τους δείκτες Infit και Outfit Οι εν λόγω δείκτες καλής
προσαρμογής αφορούν τόσο τα ερωτήματα του τεστ (τις 60 λέξεις στη δική μας
περίπτωση) όσο και καθέναν από τους συμμετέχοντες μαθητές και μαθήτριες
ξεχωριστά Έτσι κάθε λέξη και κάθε μαθητής έχουν από τιμή για καθέναν από
τους δύο προαναφερθέντες δείκτες
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
35
Και οι δύο αυτοί δείκτες είτε για εξεταζόμενους μαθητές είτε για τα ερωτήματα
βασίζονται στην ιδέα της κανονικοποιημένης (standardized) διαφοράς μεταξύ της
τιμής που παρατηρείται (εδώ η τιμή είναι είτε 0 είτε 1 ανάλογα με το αν ο
εξεταζόμενος είχε λάθος ή σωστή την ερώτηση αντιστοίχως) και της τιμής που θα
αναμενόταν με βάση το μοντέλο Guttman για το οποίο μιλήσαμε πιο πάνω Η
αναμενόμενη τιμή υπολογίζεται πιθανολογικά από τα ίδια τα δεδομένα Το
υπόλοιπο αυτής της αφαίρεσης κανονικοποιείται διαιρούμενο με την τυπική
απόκλιση Τα τετράγωνα των κανονικοποιημένων αυτών διαφορών αθροίζονται
είτε για όλους τους εξεταζόμενους είτε για όλα τα ερωτήματα και διαιρούνται με
το πλήθος των εξεταζόμενων μαθητών ή των ερωτημάτων δίνοντας δείκτες
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
36
Outfit για εξεταζόμενους ή ερωτήματα αντιστοίχως Ο τύπος του δείκτη Outfit
είναι
2
1
( )1 Nij ij
i ij
U P
N w
όπου
ijU είναι η παρατηρούμενη επίδοση του μαθητή i στο
ερώτημα j ijP η πιθανότητα ορθής απάντησης του μαθητή i στο ερώτημα j N το
μέγεθος του και (1 )ij ij ijw P P η διακύμανση (de Ayala 2009)
Στον δείκτη Infit το άθροισμα των τετράγωνων των κανονικοποιημένων
διαφορών διαιρείται με τη συνολική διακύμανση Είναι δηλαδή
2
1
1
( )N
ij ij ijN
N
iji
U P w
w
Ο δείκτης Outfit επηρεάζεται κυρίως από αποκλίσεις σε ερωτήσεις και
εξεταζόμενους που είναι στα άκρα της κλίμακας (εύκολες και δύσκολες
ερωτήσεις μαθητές με υψηλή ή χαμηλή ικανότητα) Αντίθετα ο δείκτης Infit
επηρεάζεται κυρίως από αποκλίσεις στο μεσαίο φάσμα της δυσκολίας των
ερωτήσεων ή της ικανότητας των εξεταζομένων (de Ayala 2009) Και οι δύο αυτοί
δείκτες μπορεί να είναι από μηδέν ως άπειρο και έχουν αναμενόμενη τιμή ίση με
τη μονάδα Οι Σιδερίδης κά (2008) παρουσιάζουν στη σελίδα 302 της εργασίας
τους τις φυσαλίδες για τους δείκτες Outfit και Infit σε σχέση με τα ερωτήματα
που χρησιμοποιήθηκαν στην έρευνα Οι φυσαλίδες αυτές παράγονται από το
λογισμικό ldquoExcelrdquo της Microsoft το οποίο παίρνει τα δεδομένα και τις σχετικές
εντολές από το λογισμικό Winsteps Στους άξονες των τεταγμένων
παρουσιάζεται ο βαθμός δυσκολίας των ερωτήσεων σε κλίμακες logit ενώ στον
οριζόντιο άξονα των τετμημένων παρουσιάζονται οι τιμές των δεικτών Infit
(επάνω σχήμα) και Outfit (κάτω σχήμα) Οι συγγραφείς (Σιδερίδης κ ά 2008)
σημειώνουν με μικρά βέλη τις ερωτήσεις που δεν προσαρμόζονται καλά στο
μοντέλο Αξίζει να σημειωθεί ότι η διάμετρος των φυσαλίδων σχεδιάζεται από το
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
37
Excel ανάλογα με τα τυπικά σφάλματα των δεικτών Infit και Outfit της κάθε
ερώτησης Όπως θα εξηγήσουμε οι εν λόγω δείκτες δεν ακολουθούν στις
φυσαλίδες την κατανομή χι τετράγωνο αλλά την κατανομή t για τον έλεγχο της
στατιστικής τους σημαντικότητας
Συνήθως οι τιμές outfit και infit παρουσιάζονται σε δύο μορφές στα στατιστικά πακέτα Είτε
ως mean square statistics (MNSQ) είτε ως standardized statistics (ZSTD) (Wright amp
Panchapakesan 1969) Όπως είδαμε ο δείκτης Οutfit βασίζεται στο άθροισμα των
τετραγώνων των τυποποιημένων καταλοίπων Η κατανομή των τυποποιημένων υπολοίπων
του μοντέλου Rasch είναι κατά προσέγγιση κανονική Το άθροισμα των τετραγώνων των
υπολοίπων ακολουθεί την κατανομή χι τετράγωνο Η διαίρεση αυτού του αθροίσματος με
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
38
τους βαθμούς ελευθερίας δίνει το μέσο όρο αυτού του αθροίσματος δηλαδή το OUTFIT
MEANSQ με μέσο όρο 1 και εύρος από 0 μέχρι άπειρο Τιμές μεγαλύτερες του 1 δείχνουν
laquoθόρυβοraquo στο μοντέλο Rasch Οι τιμές OUTFIT MEANSQ είναι φυσικά σε κλίμακα ίσων
λόγων κι έτσι μια τιμή πχ MEANSQ 12 σημαίνει 20 περισσότερο laquoθόρυβοraquo Τιμές
μικρότερες του 1 καταδεικνύουν laquoυπερπροσαρμογήraquo (overfit) των δεδομένων στο μοντέλο
Rasch πράγμα που σημαίνει ότι οι αποκρίσεις των συμμετεχόντων είναι πολύ πιο
προβλέψιμες ή τακτοποιημένες από ότι θα έπρεπε Ο δείκτης Ιnfit είναι ένας Outfit
σταθμισμένος με βάση την laquoπληροφορίαraquo που προσφέρει κάθε ερώτηση Η στάθμιση
έρχεται να μειώσει την επίδραση όσων αποκρίσεων συνδέονται με μικρή διακύμανση ή
είναι εκτός στόχου και σε γενικές γραμμές δεν δίνουν πολύ πληροφορία στο μοντέλο Οι
σχεδιαστές του λογισμικού Winsteps χρησιμοποιούν μια εναλλακτική μορφή αυτών των
δύο δεικτών η οποία προτάθηκε από τους Wilson και Hilferty (1931)
DIFFERENTIAL ITEM FUNCTIONING
Στη συνέχεια οι συγγραφείς προχωρούν στον έλεγχο της πιθανής
διαφοροποιητικής λειτουργίας των ερωτήσεων του τεστ (differential item
functioning) Στον έλεγχο δηλαδή του αν τα ερωτήματα είναι το ίδιο δύσκολα για
διαφορετικές ομάδες εξεταζόμενων Σύμφωνα με τους Clauser και Mazor (1998)
διαφοροποιητική λειτουργία έχουμε όταν δύο εξεταζόμενοι στο ίδιο επίπεδο
ικανότητας αλλά από διαφορετικά γκρουπ έχουν διαφορετικές πιθανότητες να
απαντήσουν σωστά σε μια ερώτηση Αν ο παράγοντας που προκαλεί αυτή τη
διαφοροποίηση ανάμεσα στα δύο γκρουπ δεν είναι μέρος της θεωρητικής
κατασκευής που ελέγχεται από το τεστ τότε το τεστ είναι μεροληπτικό Από μόνη
της δηλαδή μια διαφοροποίηση ανάμεσα σε εξεταζόμενους δεν σημαίνει ότι το
τεστ είναι κατrsquo ανάγκη και μεροληπτικό Για να θεωρηθεί το τεστ μεροληπτικό θα
πρέπει η διαφοροποιητική λειτουργία να εμφανίζεται σε τομέα που δεν συνδέεται
με την θεωρητική κατασκευή που ελέγχεται Αν η διαφοροποιητική λειτουργία
εμφανίζεται σε τομείς που σχετίζονται με την προς έλεγχο θεωρητική κατασκευή
τότε δεν μιλάμε για laquoμεροληψίαraquo του τεστ αλλά για laquoεπίδρασηraquo της προς έλεγχο
μεταβλητής
Η απόφαση για το αν έχουμε μεροληψία ή επίδραση δεν είναι πάντα εύκολη και
συνήθως απαιτείται ομάδα ειδικών περί της προς έρευνα θεωρητικής κατασκευής
για να αποφανθούν Οι δύο ομάδες στη συγκεκριμένη περίπτωση ήταν οι μαθητές
που έχουν γονείς μετανάστες και οι μαθητές που δεν έχουν γονείς μετανάστες
και η θεωρητική κατασκευή είναι η γλωσσική ικανότητα Πράγματι το γλωσσικό
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
39
background των εξεταζομένων είναι παράγοντας με σημαντική επίπτωση στη
μελέτη της γλωσσικής ικανότητάς τους βλ σχ (Chen amp Henning 1985 Brown 1999
Elder 1996 Kim 2001 Ο έλεγχος αυτός είναι πολύ σημαντικός ιδιαίτερα σε μια
γλωσσική δοκιμασία
H διαφοροποίηση για την οποία μιλάμε υπολογίζεται από ένα t-test το οποίο
προτάθηκε από τους Wright and Stone (1979) Ο τύπος του συγκεκριμένου t-test
δίνεται από τους συγγραφείς και είναι 2 1 2 12 2i i i it d d s s όπου
1id είναι η
δυσκολία του ερωτήματος i στην μία ομάδα 1 2id είναι η δυσκολία του ερωτήματος
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
40
i στην άλλη ομάδα 12is το τυπικό σφάλμα του
1id και
22is το τυπικό σφάλμα του
2id Με βάση αυτό το τεστ οι ερευνητές δεν βρήκαν στατιστικώς σημαντική
διαφορά ανάμεσα σε μαθητές που είχαν ως μητρική γλώσσα την ελληνική και
μαθητές που δεν είχαν ως μητρική γλώσσα την ελληνική Μάλιστα οι λέξεις
laquoπετάνεraquo laquoδωρεάνraquo και laquoοικονομικότεροςraquo βρέθηκε να είναι πιο εύκολες για
μαθητές που δεν είχαν την ελληνική ως μητρική γλώσσα
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
41
ΣΥΖΗΤΗΣΗ ΚΑΙ ΒΙΒΛΙΟΓΡΑΦΙΑ
Στην ενότητα της laquoσυζήτησηςraquo οι συγγραφείς αναφέρουν ξανά τους αρχικούς
στόχους της έρευνας ώστε να μπορέσουν να τους συνδέσουνε με τα
συμπεράσματα της μελέτης Τα τρία κυριότερα συμπεράσματα παρουσιάζονται
σε τρεις διαφορετικές παραγράφους στις οποίες γίνεται παρουσίαση νέων
πληροφοριών από τη διεθνή βιβλιογραφία με μοναδικό σκοπό όμως όχι να
πληροφορήσει τον αναγνώστη για την υπάρχουσα βιβλιογραφία σχετικά με το
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
42
θέμα αλλά για να συνδέσει τα ευρήματα με άλλα παρόμοια ευρήματα ερευνών
στον ευρωπαϊκό χώρο Οι συγγραφείς αναφέρουν επίσης της επιστημολογικές
τους θέσεις γράφοντας για χρήση laquoέγκυρων και αξιόπιστων εργαλείων μέτρησηςraquo
καθώς και laquoδεδομένα στάθμισηςraquo τα οποία είναι laquoεπιβεβλημένα στο σύγχρονο
σχολείο σαν τμήμα μιας αμερόληπτης αξιολογικής διαδικασίας η οποία
προσφέρει αναγκαία πληροφόρηση για τον σχεδιασμό διδασκαλίας υψηλής
αποτελεσματικότηταςraquo Στην τελευταία παράγραφο οι συγγραφείς αναφέρονται
στους laquoπεριορισμούςraquo της έρευνας αναφερόμενοι στην laquoτρέχουσα και
προβλεπτική εγκυρότητα του εν λόγω εργαλείουraquo laquoΤρέχουσα εγκυρότηταraquo ενός
τεστ είναι ο βαθμός συσχέτισης των απαντήσεων σε
αυτό με τις απαντήσεις των ίδιων εξεταζόμενων σε ένα άλλο τεστ που
τεκμηριωμένα και αναγνωρισμένα μετράει την ίδια θεωρητική κατασκευή ενώ
laquoπροβλεπτικήraquo εγκυρότητα είναι ο βαθμός συσχέτισης των αποτελεσμάτων ενός
τεστ με τα αποτελέσματα ενός άλλου τεστ που γίνεται στο μέλλον και το οποίο
μετράει με αδιαμφισβήτητο τρόπο την θεωρητική κατασκευή Τρέχουσα
εγκυρότητα έχει ένα τεστ γνώσεων της Αγγλικής γλώσσας το οποίο ταιριάζει με
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
43
ένα τεστ που αποδεδειγμένα μετράει καλά τη γνώση της Αγγλικής ενώ
προβλεπτική εγκυρότητα έχει όταν προβλέψει σωστά ποιοι μαθητές θα πάρουν
το
Certificate of Proficiency in English Στην παρουσίαση της βιβλιογραφίας οι
συγγραφείς ακολουθούν το στιλ της Αμερικάνικης Ψυχολογικής Εταιρίας
(American Psychological Association) αλλά χωρίς να αναφέρουν τη διεύθυνση doi
κάθε άρθρου Η διεύθυνση αυτή είναι η μόνιμη θέση ενός ηλεκτρονικού κειμένου
μέσα στο Διαδίκτυο (digital object identifier) ώστε ένας πιθανός μελετητής να
μπορεί να εντοπίσει το άρθρο
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
44
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
45
ΠΑΡΑΡΤΗΜΑΤΑ
Και εργασία των Σιδερίδη κά (2008) κλείνει με τρία παραρτήματα Στο πρώτο
σελίδα 307 στο πρωτότυπο κείμενο οι συγγραφείς παρουσιάζουν τον τελικό
κατάλογο των λέξεων τοποθετημένες σε σειρά δυσκολίας σύμφωνα με το
μοντέλο Rasch συνοδευόμενες από τον βαθμό δυσκολία τους πάντα κατά
ανάλυση Rasch
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
46
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
47
Στο Πράρτημα Β οι συγγραφείς παρουσιάζουν τα διαγράμματα φυσαλίδων
Όπως έχουμε αναφέρει η διάμετρός τους είναι ανάλογη των τυπικών
σφαλμάτων των κανονικοποιημένων δεικτών Infit και Outfit της Τέλος στο
Παράρτημα Γ οι συγγραφείς παρουσιάζουν σε λογιστικές μονάδες το επίπεδο
δυσκολίας κάθε λέξης σε κάθε τάξη που έγινε η έρευνα για μαθητές που είχαν
και για μαθητές που δεν είχαν τη μητρική ως ξένη γλώσσα Η εργασία κλείνει με
την περίληψη στην αγγλική γλώσσα
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
48
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
49
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
50
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
51
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
52
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
53
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
54
ΣΧΟΛΙΑ ΠΑΝΩ ΣΤΑ ΜΟΝΤΕΛΑ RASCH
Οι μέθοδοι για τον υπολογισμό των παραμέτρων σε μια μέτρηση κατά Rasch είναι
αρκετοί σε αριθμό και μπορούν να μελετηθούν στη βιβλιογραφία σε κείμενα όπως
αυτά των Wright και Masters (1982) καθώς και Linacre (1999 2004) Προϋπόθεση
για να είναι έγκυρη μια ανάλυση Rasch είναι τα ερωτήματα να προσαρμόζονται
στην απλή λογική της σύμφωνα με την οποία η επίδοση είναι το άθροισμα της
ικανότητας των εξεταζομένων και (μείον) την δυσκολία των θεμάτων Οι Bord και
Fox (2015) συμβουλεύουν τους ερευνητές και τις ερευνήτριες να μην απορρίπτουν
τα ερωτήματα-θέματα που δεν προσαρμόζονται σε αυτή την απλή λογική αλλά
να προσπαθούν να εξακριβώσουν τους θεωρητικούς λόγους πίσω από κάθε
έλλειψη προσαρμογής
Η ανάλυση παραγόντων και η μέτρηση κατά Rasch θεωρούνται -και είναι-
ανόμοιες λόγω των σχολών από τις οποίες προέρχονται Η πρώτη όπως είδαμε
προέρχεται από την κλασική θεωρία των μετρήσεων ενώ η δεύτερη είναι παιδί
της μοντέρνας θεωρίας των μετρήσεων Η Ανάλυση Παραγόντων μοιάζει με την
γραμμική παλινδρόμηση με την διαφορά ότι στην πρώτη οι ερευνητές θα πρέπει
να αποφασίσουν τον αριθμό τις φορτίσεις αλλά τη φύση ακόμα και τα ονόματα
των κοινών παραγόντων Για να το κάνουν αυτό εφαρμόζουν ορισμένους
περιορισμούς κατά τη κατασκευή των μοντέλων Θέτουν για παράδειγμα τον
περιορισμό το μοντέλο να έχει έναν καθορισμένο αριθμό κοινών παραγόντων ή
θέτουν κάποιους περιορισμούς σε σχέση ποιος κοινός παράγοντας δηλαδή ποια
λανθάνουσα μεταβλητή σχετίζεται ισχυρότερα με ορισμένες μόνο από τις
μεταβλητές και όχι με όλες Στην ανάλυση κατά Rasch η γραμμική λογική είναι η
ίδια και το μόνο που αλλάζει είναι η φύση των λανθανουσών μεταβλητών Αυτά
που προστίθεται εδώ είναι μόνο δύο στοιχεία δηλαδή η δυσκολία του θέματος ή
του ερωτήματος του τεστ και η ικανότητα του συμμετέχοντα ή της
συμμετέχουσας
Σε σύγκριση με την ανάλυση παραγόντων η ανάλυση κατά Rasch έχει ορισμένα
χαρακτηριστικά τα οποία σύμφωνα με τον Wright (1977) την κάνουν laquoανώτερηraquo
Πρώτον στην ανάλυση κατά Rasch η μέτρηση των θεμάτων-ερωτημάτων και των
ατόμων γίνεται στην ίδια κλίμακα σύμφωνα με τους Iramaneerat Smith και Smith
(2008) Δεύτερον αυτή η κλίμακα είναι ίσων διαστημάτων και όχι τακτικών τιμών
όπως στις μετρήσεις της ανάλυσης παραγόντων Τρίτον η μέτρηση κατά Rasch
έχει το χαρακτηριστικό της αμεταβλητότητας όπως γράφει ο Engelhard (2013)
Αμεταβλητότητα σημαίνει ότι η κατανομή της ικανότητας των ατόμων δεν
εξαρτάται από την κατανομή δυσκολίας των ερωτημάτων-θεμάτων
Στη βιβλιογραφία έχει συζητηθεί το θέμα του κατά πόσο η ανάλυση παραγόντων
συνδέεται με την ανάλυση κατά Rasch (βλ Holt Duijn amp Boomsma 2010 Takane
amp de Leeuw 1987 Kamata amp Bauer 2008 Maydeu-Olivares Cai amp Hernaacutendez 2011
Wirth amp Edwards 2007) Υποστηρίζεται ότι στην περίπτωση που έχουμε μη
γραμμική ανάλυση παραγόντων (πχ στην περίπτωση που έχουμε απαντήσεις
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
55
του τύπου laquoσωστόraquo - laquoλάθοςraquo όπως στην έρευνα των Σιδερίδη και των
συνεργατών του που είδαμε οι παράμετροι της ανάλυσης παραγόντων μπορούν
να μετατραπούν σε παραμέτρους ανάλυσης κατά Rasch (Kamata amp Bauer 2008)
Ακόμα και στο ζήτημα της μέτρησης της αξιοπιστίας των μετρήσεων- στην ουσία
μια διαδικασία που βρίσκεται στον πυρήνα της θεωρίας του πραγματικού σκορ- οι
δύο μέθοδοι έχουν πολλά κοινά στοιχεία Εκεί που οι δύο θεωρίες διαφέρουν πολύ
είναι στην έννοια της μονοδιαστατικότητας στην οποία θα σταθούμε
Ένα κρίσιμο χαρακτηριστικό των τεστ λοιπόν τόσο στην ανάλυση παραγόντων
(κλασσική θεωρία των τεστ) όσο και στη μέτρηση κατά Rasch είναι σύμφωνα με
τον Thurstone (1931) η ύπαρξη μίας και μόνης διάστασης στα δεδομένα ή αλλιώς
η laquoμονοδιαστατικότηταraquo (ldquounidimensionalityrdquo στην ξενόγλωσση βιβλιογραφία) Η
ιδιότητα αυτή είναι απολύτως σημαντική κυρίως στη μέτρηση κατά Rasch λόγω
της αξίωσης της αμεταβλητότητας και της ειδικής αμεροληψίας των μετρήσεων
(Brentari amp Golia 2007) για τις οποίες μιλήσαμε
Στην ανάλυση παραγόντων κάθε απόφαση περί του βέλτιστου αριθμού των
διαστάσεων είναι μέρος της διαδικασίας αυτής καθrsquo αυτής και υπάρχουν πολλές
μέθοδοι καθεμία με τον δικό της βαθμό πολυπλοκότητας τις οποίες οι ερευνητές
χρησιμοποιούν για να καταλήξουν στον βέλτιστο αριθμό παραγόντων (βλ Hair
Anderson Tatham amp Black 1995) Στην ανάλυση κατά Rasch όμως η
μονοδιαστατικότητα όχι μόνο είναι εκ των ουκ άνευ αλλά επιπλέον οι ειδικοί δεν
έχουν καταλήξει ακόμα σε ασφαλή συμπεράσματα για το πώς πρέπει αυτή να
ελέγχεται Κατrsquo αρχάς οι διαδικασίες ελέγχου της καλής εφαρμογής του μοντέλου
μέσω των δεικτών Outfit και Infit τις οποίες παρουσιάσαμε σε προηγούμενες
ενότητες δεν είναι κατάλληλες για την αξιολόγηση της μονοδιαστατικότητας
Αυτό συμβαίνει διότι σύμφωνα με τους Christensen Engelhard και Salzberger
(2012) όταν σε μια ανάλυση τα περισσότερα ερωτήματα μετράνε μία και μόνη
διάσταση και κάποια ερωτήματα μετράνε μια άλλη διάσταση τα δεύτερα
επισημαίνονται εξrsquo αρχής από τις μετρήσεις καλής εφαρμογής του μοντέλου
Rasch ως ανόμοια και συνήθως αποσύρονται από την ανάλυση με ευθύνη των
ίδιων των ερευνητών
Ο Wright (στο Linacre 2015) προτείνει στους ερευνητές να αξιολογούν την ύπαρξη
της μονοδιαστατικότητας μέσω ανάλυσης κύριων συνιστωσών στα κατάλοιπα
(residuals) του μοντέλου Rasch Κατόπιν προτείνει να χωρίζεται το τεστ σε δύο
μέρη καθένα από εκ των οποίων να περιέχει μόνο τα ερωτήματα που εμφανίζουν
υψηλή συνάφεια με καθεμιά από τις κύριες συνιστώσες (θετική ή αρνητική)
Τέλος προτείνει να υπολογίζεται ο συντελεστής συνάφειας μεταξύ των δύο
μερών στα οποία χωρίστηκε το αρχικό τεστ Στην ιστοσελίδα του στατιστικού
πακέτου Winsteps ο Linacre προτείνει μια τιμή Person r ίση με 057 ως όριο κάτω
από το οποίο τα τα δύο μέρη του τεστ δεν μοιάζουν μεταξύ τους και ως συνέπεια
ο ερευνητής συμπεραίνει έλλειψη μονοδιαστατικότητας
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
56
Άλλοι τρόποι για να αξιολογηθεί η μονοδιαστατικότητα ενός τεστ στο πλαίσιο της
ανάλυσης κατά Rasch είναι σύμφωνα με την Verhelst (2001) το τεστ Martin-Lof
(βλ Gustafsson 1980) το λεγόμενο Q2 τεστ του van der Wollenberg (1982) καθώς
και η τεχνική του διαχωρισμού των ερωτημάτων (splitter-item-technique) επίσης
του van den Wollenberg (ό π) Στο ίδιο πλαίσιο οι Hambleton και Rovinelli (1986)
έχουν συλλέξει και παρουσιάζουν περί τους 87 δείκτες για τον έλεγχο της
μονοδιαστατικότητας γενικά και όχι αποκλειστικά στην ανάλυση κατά Rasch
Πάντως η κύρια αντίληψη μέσα στην άτυπη επιστημονική κοινότητα των
ψυχομετρών που χρησιμοποιούν σήμερα την ανάλυση κατά Rasch θα μπορούσε
να συνοψιστεί σε αυτό που έχουν γράψει οι Reise Cook and Moore (2015 p 13)
Το σημαντικό στην ανάλυση δεν είναι αν τα δεδομένα
είναι μονοδιάστατα αλλά ο βαθμός στον οποίο η
υποτιθέμενη πολυδιαστατικότητα έρχεται σε σύγκρουση ή
προκαλεί στρεβλώσεις στην εκτίμηση των παραμέτρων
της ανάλυσης Rasch [δική μας μετάφραση]
Στο ίδιο πλαίσιο ο Everett Smith (2002 p 206) θα γράψει ότι laquoαντί να ρωτάμε
laquoμονοδιάστατο ή όχιraquo [για ένα τεστ] θα έπρεπε να ρωτάμε laquoαπό ποιο σημείο ενός
συνεχούς και μετά αυτή η πολυδιαστατικότητα αποτελεί απειλή για τον
υπολογισμό των παραμέτρων των ερωτημάτων και των ατόμωνraquo
Αξίζει να αναφέρουμε ότι από τα τέλη της δεκαετίας του 1970 μέχρι σήμερα ο
καθηγητής Harvey Goldstein αρχικά από το London Institute of Education και
τώρα από το Πανεπιστήμιο του Bristol έχει αμφισβητήσει συνολικά την
μονοδιαστατικότητα των μοντέλων Rasch χρησιμοποιώντας επιχειρήματα από
τον χώρο της θεωρητικής και εφαρμοσμένης Στατιστικής αλλά και από τους
χώρους της Ψυχομετρίας και της Εκπαιδευτικής Αξιολόγησης (βλ Goldstein amp
Blinkhorn 1982 Goldstein 1979a 1979b) Τα επιχειρήματα αυτά δεν θα
παρουσιαστούν εδώ αλλά είναι σημαντικό ότι μέσω της αμφισβήτησης της
μονοδιαστατικότητας και της τοπικής ανεξαρτησίας των ερωτημάτων των
διεθνών ερευνών μαθητικής επίδοσης ο Goldstein όπως και άλλοι ερευνητές έχει
ασκήσει κριτική στο πρόγραμμα PISA (βλ Goldstein 2004 Kreiner amp Christensen
2014) Η σχετική συζήτηση συνεχίζεται σε κείμενα όπως αυτό του Goldstein (2015)
και τις θέσεις των Panayides Robinson και Tymms (2015) Ένα προτεινόμενο
εισαγωγικό κείμενο στο θέμα της μονοδιαστατικότητας αποτελεί η εργασία του
Wiberg (2012) στο περιοδικό Educational Research and Evaluation
Οι Wright και Stone (1999) υποστηρίζουν ότι η ανάλυση αξιοπιστίας ενός τεστ
μέσω για παράδειγμα του δείκτη Kuber και Richardson formula 20 ή του δείκτη
alpha του Cronbach είναι πιο ακριβής όταν βρισκόμαστε σε περιβάλλον μέτρησης
κατά Rasch παρά στο περιβάλλον της θεωρίας του πραγματικού σκορ Αυτό
γίνεται διότι τα τυπικά σφάλματα στην ανάλυση Rasch βασίζονται σε μετρήσεις
οι οποίες είναι γραμμικοί ndashαπλοί λογαριθμικοί- μετασχηματισμοί των αρχικών
σκορ Στην ανάλυση κατά Rasch το μέση διακύμανση του στατιστικού σφάλματος
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
57
βασίζεται στα τετράγωνα των υπολοίπων που βασίζονται με τη σειρά τους στον
λογαριθμικό μετασχηματισμό των αρχικών τιμών κάθε ερωτήματος-θέματος του
τεστ Πιο συγκεκριμένα στην ανάλυση κατά Rasch χρησιμοποιείται για τον
υπολογισμό της αξιοπιστίας η μέση διακύμανση από όλα τα σφάλματα στο
δείγμα αντί για την διακύμανση του σφάλματος του laquoμέσου ατόμουraquo (Wright amp
Stone 1999)
Κλείνοντας την συζήτηση για την ανάλυση κατά Rasch θα αναφερθούμε στους
συντελεστές αξιοπιστίας τόσο στην εν λόγω ανάλυση όσο και στις αναλύσεις
που βασίζονται στη θεωρία του πραγματικού σκορ Όπως είναι γνωστό οι
συντελεστές αξιοπιστίας έχουν ως κατώτατο όριο το 0 και ως ανώτατο όριο το 1
Όμως η μη γραμμική τους φύση προκαλεί δυσκολίες στην ερμηνεία τους Για
παράδειγμα μια αύξηση του δείκτη αξιοπιστίας Cronbach a από 06 στο 07 δεν
σημαίνει πρακτικά ίδια ποσοτικά βελτίωση όση θα σήμαινε μια αύξηση του ίδιου
δείκτη από 07 στο 08 παρόλο που αριθμητικά η μεταβολή είναι ίδια Για να
αντιμετωπιστεί λοιπόν το ζήτημα αυτό που προφανώς προκύπτει την ύπαρξη
ανώτατου ορίου laquoοροφηςraquo στο 1 στην ανάλυση κατά Rasch χρησιμοποιούμε
πολλές φορές τον λεγόμενο laquoδείκτη διαχωρισμούraquo τόσο για τους συμμετέχοντες
όσο και για τα θέματα Ο εν λόγω δείκτης είναι η τετραγωνική ρίζα ενός
κλάσματος στον αριθμητή του οποίου έχουμε τον συντελεστή αξιοπιστίας (τον
δείκτη αξιοπιστίας Cronbach a που γίνεται Kuder - Richardson formula 20 στα
διχοτομικά δεδομένα) και στον παρονομαστή το 1 πλην τον ίδιο συντελεστή
αξιοπιστίας (βλ Iramaneerat et al 2008) Ο δείκτης διαχωρισμού) των ατόμων
(personsrsquo separation index) ο οποίος συμβολίζεται με Gp δείχνει πόσο διαφέρουν
τα άτομα σε σχέση με την ικανότητά τους σε μονάδες τυπικού σφάλματος (Wright
amp Masters 1982 Fisher 1992 στο Iramaneerat et al 2008) Δείχνει με άλλα λόγια
πόσες διακριτές μετρήσεις ατομικών ικανοτήτων υπάρχουν στο δείγμα όταν οι
πολύ υψηλές και οι πολύ χαμηλές ικανότητες έχουν εξαιρεθεί Τέλος από τον
δείκτη διαχωρισμού προκύπτει και ο δείκτης του αριθμού των διαφορετικών
επιπέδων (strata) στις μετρήσεις τόσο των ατόμων όσο και των ερωτημάτων Ο
δείκτης αυτός μοιάζει με τον δείκτη διαχωρισμού με τη διαφορά ότι
συμπεριλαμβάνει τις πολύ υψηλές και τις πολύ χαμηλές βαθμολογίες (Linacre
2013) Για παράδειγμα ο αριθμός των διαφορετικών επιπέδων δυσκολίας των
ερωτήσεων είναι το ένα τρίτο του τετραπλάσιου του δείκτη διαχωρισμού τους
αυξημένου κατά 1) Ο δείκτης αυτός δείχνει πόσα επίπεδα δυσκολίας των
θεμάτων μπορούμε να αναμένουμε στο δείγμα
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf
58
Bιβλιογραφικές αναφορές
Allen MJ amp Yen W M (2002) Introduction to measurement theory Long Grove IL Waveland
Press
Bollen K (2002) Latent variables in Psychology and the Social Sciences Annual Review of
Psychology 53 605ndash634 httpdoiorg101146annurevpsych53100901135239
de Ayala R J (2009) The theory and practice of Item Response Theory New York NY Guilford
Press
Kellow T (2006) Using Principal Components Analysis in Program Evaluation Some
Practical Considerations Journal of MultiDisciplinary Evaluation 5 89ndash107 Retrieved
from httpjournalssfucajmdeindexphpjmde_1articleviewFile5259
Kolenikov S amp Angeles G (2004) The Use of Discrete Data in PCA Theory Simulations and
Applications to Socioeconomic Indices Moscow Russia
Kreiner S amp Christensen K B (2013) Analyses of model fit and robustness A new look at
the PISA scaling model underlying ranking of countries according to reading literacy
Psychometrika 79(2) 210ndash231 httpdoiorg101007S11336-013-9347-Z
Linacre J M (2005) Correlation coeficients Describing relationships Rasch Measurement
Transactions 19(3) 1028ndash1029 Retrieved from httpwwwraschorgrmt
Samejima F (1969) Estimation of latent ability using a response pattern of graded scores
Richmond VA Richmond Byrd Press Retrieved from
httpwwwworldcatorgtitleestimation-of-latent-ability-using-a-response-pattern-of-
graded-scoresoclc193662
Sideridis G (2011) The effects of local item dependence on estimates of ability in the Rasch
model Rasch Measurement Transactions 25(3) 1334ndash1336 Retrieved from
httpwwwraschorgrmtrmt253dhtm
Smith L (2002) A tutorial on Principal Components Analysis Otago New Zealand
Stoica P amp Jansson M (2009) On maximum likelihood estimation in factor analysis-an
algebraic derivation Signal Processing 89(6) 1260ndash1262
httpdoiorg101016jsigpro200901002
Thomson R (1980) Maximum Likelihood Estimation of variance components Math
Operationsforsch 11 545ndash561
Thurstone L (1925) A method of scaling psychological and educational tests Journal of
Educational Psychology 16 433ndash451 Retrieved from
httpwwwbrockucaMeadProjectThurstoneThurstone_1925bhtm
Κασσωτακης Μ (2013) Η αξιολόγηση της επίδοσης των μαθητών θεωρητικές
προσεγγίσεις και πρακτικές Αθήνα Γρηγόρη
Σιδεριδης Γ Μουζάκη Α Πρωτόπαπας Α amp Σίμος Π (2008) Ψυχομετρική διερεύνηση
μιας ορθογραφικής δοκιμασίας για μαθητές δημοτικού σχολείου Ψυχολογια 15(3)
290ndash315 Retrieved from
httpwwwilspgrhomepagesprotopapaspdfSideridis_etal_2008_Psychologiapdf